来源:银川达内it培训学校
时间:2020/12/31 14:00:49
银川选择哪家大数据机构学下比较好?在银川学习就到达内IT培训,17年专业IT培训机构,美国上市集团,开设IT培训班Java、python、大数据、linux、UI、会计等IT培训,泛IT培训和非IT培训共24大课程,0元试听,随到随学,推荐就业
银川比较好的大数据培训学校小编推荐到银川达内,欢迎大家到校或者在线咨询,欢迎在线咨询!
交互式(Interactive)
Dremel该论文是多个基于Hadoop的开源SQL系统的理论基础。
Impala:这是一个大规模并行处理(MPP)式SQL大数据分析引擎,Impala像Dremel一样,其借鉴了MPP(MassivelyParallelProcessing,大规模并行处理)并行数据库的思想,抛弃了MapReduce这个不太适合做SQL查询的范式,从而让Hadoop支持处理交互式的工作负载。
Drill:这是谷歌Dremel的开源版本,Drill是一个低延迟的、能对海量数据(包括结构化、半结构化及嵌套数据)实施交互式查询的分布式数据引擎。
Shark:Shark即“HiveonSpark”的含义,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作。然后通过Hive的元数据获,取数据库里的表信息。HDFS上的数据和文件,会由Shark获取,并放到Spark上运算。Shark基于Scala语言的算子推导,可实现良好的容错机制,对执行失败的长/短任务,均能从上一个“快照点(Snapshot)”进行恢复。
Dryad:Dryad是一个通用的粗颗粒度的分布式计算和资源调度引擎,其核心特性之一,就是允许用户自己构建DAG调度拓扑图。
Tez:其核心思想来源于Dryad,可视为利用Yarn(即MRv2)对Dryad的开源实现。ApacheTez是基于HadoopYarn之上的DAG计算框架。
BlinkDB:可在抽样数据上实现交互式查询,其呈现出的查询结果,附带有误差标识。BlinkDB是一个用于在海量数据上运行交互式SQL查询的大规模并行查询引擎。BlinkDB允许用户通过适当降低数据精度,对数据进行先采样后计算,其通过其独特的优化技术,实现了比Hive快百倍的交互式查询速度,而查询进度误差仅降低2~10%。
实时系统(RealTime)
Druid:这是一个开源的分布式实时数据分析和存储系统,旨在处理大规模的数据,并能做到查询和分析。
Pinot:这是由LinkedIn公司出品的一个开源的、实时分布式的OLAP数据分析存储系统,非常类似于前面提到的Druid,LinkedIn使用它实现低延迟可伸缩的实时分析。
温馨提示:为了不影响您的时间,来校区前或者遇到不明白的问题请先电话咨询,方便我校安排相关课程的专业老师为您解答,选取适合您的课程。我们有多处校区,价格方面可随时电话咨询。以上是银川达内小编为您整理。欢迎大家到校或者在线咨询!
版权所有:搜学搜课(www.soxsok.com)