来源:银川达内it培训学校
时间:2020/12/31 13:59:14
银川教的好的大数据辅导班?在银川学习就到达内IT培训,17年专业IT培训机构,美国上市集团,开设IT培训班Java、python、大数据、linux、UI、会计等IT培训,泛IT培训和非IT培训共24大课程,0元试听,随到随学,推荐就业
银川比较好的大数据培训学校小编推荐到银川达内,欢迎大家到校或者在线咨询,欢迎在线咨询!
计算框架(ComputationalFrameworks)
(0)运行时计算框架
可为不同种类的计算,提供运行时(runtime)环境。常用的是运行时计算框架是Spark和Flink。
Spark:Spark是一个基于内存计算的开源的集群计算系统,其目的在于,让数据分析更加。Spark是由加州大学伯克利分校的AMP实验室采用Scala语言开发而成。Spark的内存计算框架,适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司均是其用户。
Flink:这是一个非常类似于Spark的计算框架,但在迭代式数据处理上,比Spark更给力(注:目前大数据分析引擎Flink,已升级成为Apache项目)。
Spark和Flink都属于基础性的大数据处理引擎。具体的计算框架,大体上,可根据采用的模型及延迟的处理不同,来进行分门别类。
(1)批处理(Batch)
MapReduce
(2)迭代式(BSP)
Pregel:Pregel是一种面向图算法的分布式编程框架,其采用的是迭代式的计算模型。它被称之为Google后Hadoop时代的新“三驾马车”之一。另外两驾马车分别是:“交互式”大数据分析系统Dremel和网络搜索引擎Caffeine。
Giraph:该系统建模于谷歌的Pregel,可视为Pregel的开源版本,它是一个基于Hadoop架构的、可扩展的分布式迭代图处理系统。
GraphX:这是一个同时采用图并行计算和数据并行的计算框架,GraphX是加州大学伯克利分校AMPLab实验室的一个分布式图计算框架项目,后来整合到Spark中,成为其中的一个核心组件。GraphX的贡献在于,在Spark之上提供一栈式数据解决方案,可方便地完成图计算的一整套流水作业。
Hama:是一个构建Hadoop之上的基于BSP模型的分布式计算引擎,Hama的运行环境需要关联Zookeeper、HBase、HDFS组件。Hama中关键的技术,就是采用了BSP模型(BulkSynchronousParallel,即整体同步并行计算模型,又名大同步模型)。
(3)流式(Streaming)
Storm:Storm有时也被人们称为实时处理领域的Hadoop,它大大简化了面向庞大规模数据流的处理机制,从而在实时处理领域扮演着重要角色。
Samza:这是一款由Linkedin公司开发的分布式的流式数据处理框架(注:所谓流式数据,是指要在处理单位内得到的数据,这种方式更注重于实时性,流式数据有时也称为快数据)。
Spark流:SparkStreaming是Spark核心API的一个扩展,它并不会像Storm那样逐个处理数据流,而是在处理前,按时间间隔预先将其切分为很多小段的批处理作业。
温馨提示:为了不影响您的时间,来校区前或者遇到不明白的问题请先电话咨询,方便我校安排相关课程的专业老师为您解答,选取适合您的课程。我们有多处校区,价格方面可随时电话咨询。以上是银川达内小编为您整理。欢迎大家到校或者在线咨询!
版权所有:搜学搜课(www.soxsok.com)