首页 > 新闻详情

大数据培训学习:关于SPARK

来源:成都大数据培训机构

时间: 2018/9/16 16:21:27

 大数据培训学习:关于SPARK,成都学大数据就到成都加米谷大数据培训学校进行学习吧,课程咨询热线:400-6211-682,咨询QQ:3270487687,微信咨询:wls3270487687.成都加米谷大数据培训学校随时可以安排体验试听学习.




Spark 基本原理

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。

Spark 核心组件

Spark核心组件包含Spark的基本功能,有任务调度组件、内存管理组件、容错恢复组件、与存储系统交互的组件等。Spark核心组件提供了定义弹性分布式数据集(resilient distributed datasets,RDDs)的API,这组API是Spark主要的编程抽象。RDDs表示分布在多个不同机器节点上,可以被并行处理的数据集合。

Spark核心组件提供许多API来创建和操作这些集合。

Spark流(Spark Streaming)Spark流作为Spark的一个组件,可以处理实时流数据。流数据的例子有生产环境的Web服务器生成的日志文件,用户向一个Web服务请求包含状态更新的消息。Spark流提供一个和Spark核心RDD API非常匹配的操作数据流的API,使得编程人员可以更容易地了解项目,并且可以在操作内存数据、磁盘数据、实时数据的应用之间切换。Spark流被设计为和Spark核心组件提供相同级别的容错性,吞吐量和可伸缩性。

MLlib

Spark包含一个叫做MLlib的关于机器学习的库。MLlib提供多种类型的机器学习算法,包括分类、回归、聚类和协同过滤,并支持模型评估和数据导入功能。MLlib也提供一个低层的机器学习原语,包括一个通用的梯度下降优化算法。所有这些方法都可以应用到一个集群上。

想学大数据课程,可以参考下加米谷大数据哦

想了解更多可以拨打成都加米谷培训学校课程咨询热线:400-6211-682;咨询QQ:3270487687;微信咨询:wls3270487687.


优先领取试听课
版权所有:搜学搜课(wwww.soxsok com)