来源:银川达内it培训学校
时间:2020/12/31 14:03:32
银川教学效果好的大数据培训班?在银川学习就到达内IT培训,17年专业IT培训机构,美国上市集团,开设IT培训班Java、python、大数据、linux、UI、会计等IT培训,泛IT培训和非IT培训共24大课程,0元试听,随到随学,推荐就业
银川比较好的大数据培训学校小编推荐到银川达内,欢迎大家到校或者在线咨询,欢迎在线咨询!
数据集成层(DataIntegration)
数据集成框架提供了良好的机制,以协助地摄取和输出大数据系统之间的数据。从业务流程线到元数据框架,数据集成层皆有涵盖,从而提供全方位的数据在整个生命周期的管理和治理。
(1)摄入/消息传递(Ingest/Messaging)
Flume:这是Apache旗下的一个分布式的、高可靠的、高可用的服务框架,可协助从分散式或集中式数据源采集、聚合和传输海量日志。
Sqoop:该系统主要用来在Hadoop和关系数据库中传递数据,Sqoop目前已成为Apache的项目之一。
Kafka:这是由LinkedIn开发的一个分布式消息系统,由Scala编写而成。由于可水平扩展、吞吐率高等特性,得到广泛应用。
(2)ETL/工作流
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程,是构建数据仓库的重要一环。
Crunch:这是Apache旗下的一套JavaAPI函数库,它能够大大简化编写、测试、运行MapReduce处理工作流的程序。
Falcon:这是Apache旗下的Falcon大数据管理框架,可以帮助用户自动迁移和处理大数据集合。
Cascading:这是一个架构在Hadoop上的API函数库,用来创建复杂的可容错的数据处理工作流。
Oozie:是一个工作流引擎,用来协助Hadoop作业管理,Oozie字面含义是驯象之人,其寓意和Mahout一样,帮助用户更好地搞定Hadoop这头大象。
(3)元数据(Metadata)
HCatalog:它提供了面向ApacheHadoop的数据表和存储管理服务,ApacheHCatalog提供一个共享的模式和数据类型的机制,它抽象出表,使用户不必关心数据怎么存储,并提供了可操作的跨数据处理工具。
(4)序列化(Serialization)
ProtocolBuffers:由Google推广的一种与语言无关的、对结构化数据进行序列化和反序列化的机制。
Avro:这是一个建模于ProtocolBuffers之上的、Hadoop生态系统中的子项目,Avro本身既是一个序列化框架,同时也实现了RPC的功能。
温馨提示:为了不影响您的时间,来校区前或者遇到不明白的问题请先电话咨询,方便我校安排相关课程的专业老师为您解答,选取适合您的课程。我们有多处校区,价格方面可随时电话咨询。以上是银川达内小编为您整理。欢迎大家到校或者在线咨询!
版权所有:搜学搜课(www.soxsok.com)