首页 > 新闻资讯 > 详情

郑州本地专业的学大数据培训机构名单榜首汇总

来源:郑州达内IT时间:2023/9/7 15:21:40

  学大数据需要学哪些内容

  数据收集层

  主要由关系型和非关系型数据收集组件,分布式消息队列构成。

  Sqoop/Canal:关系型数据收集和导入工具。

  Flume:非关系型数据收集工具,主要是流式日志数据。

  Kafka:分布式消息队列,一般作为数据总线使用。

  数据存储层

  主要由分布式文件系统(面向文件存储)和分布式数据库(面向行/列的存储)构成。

  HDFS:Hadoop分布式文件系统。

  Hbase:构建在HDFS之上的分布式数据库。

  Kudu:介于HDFS和HBase之间的基于列式存储的分布式数据库。

  资源管理与服务协调层

  YARN:统一资源管理与调度系统,管理集群中的各种资源。

  ZooKeeper:基于简化的Paxos协议实现的服务协调系统。

  Mesos:类似于Yarn,也是一个分布式资源管理平台。

  计算引擎层

  主要包括批处理(时间要求低,高吞吐)、交互式处理(时间要求比较高,SQL查询)、流式实时处理(时间要求非常高)三种引擎。

  MapReduce:经典的批处理计算引擎,具体良好的扩展性与容错性。

  Spark:通用的DAG计算引擎,允许用户充分利用内存进行的数据挖掘和分析。

  Impala/Presto:开源的MPP系统,允许用户使用标准的SQL处理存储在Hadoop中的数据。

  Storm/Spark Streaming:分布式流式实时计算引擎,能够的处理流式数据。

  Flink:分布式的大数据处理引擎,可以对有限数据流和无线数据流进行有状态的计算。

  数据分析层

  主要为方便用户解决大数据问题而提供的各种数据分析工具。

  Hive/Pig/SparkSQL:在计算引擎之上构建的支撑SQL或者脚本语言的分析系统,大大降低了用户进行大数据分析的门槛。

  Mahout/MLib:在计算引擎上构建的机器学习库,实现常用的机器学习和数据挖掘算法。

  Apache Beam/Cascading:基于各类计算框架而封装的API,方便构建复杂的流水线。

优先领取试听课
新闻资讯更多新闻
版权所有:搜学搜课(wwww.soxsok com)