来源:苏州达内IT培训学校
时间:2020/5/17 17:10:28
Apache Spark简介
Apache Spark是为计算而设计的开源,闪电般的集群计算框架。Apache Spark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。Apache Spark的主要功能是内存中的群集计算,可以提高应用程序的处理速度。
Spark计划用于涵盖各种工作负载,例如迭代算法,批处理应用程序,流和交互式查询。除了支持这些工作负载,它还减少了维护不同工具的管理障碍。
Apache Spark框架的核心组件
Apache Spark框架由负责Spark功能的主要五个组件组成。这些组成部分是–
Spark SQL和数据框架–在顶部,Spark SQL允许用户运行SQL和HQL查询以处理结构化和半结构化数据。
SparkStreaming – Spark流传输有助于处理实时流数据,即日志文件。它还包含用于处理数据流的API
MLib机器学习– MLib是具有机器学习功能的Spark库。它包含各种机器学习算法,例如回归,聚类,协作过滤,分类等。
GraphX –支持图形计算的库称为GraphX。它使用户能够执行图操作。它还提供了图形计算算法。
Apache Spark Core API –它是Spark框架的内核,并提供了一个执行Spark应用程序的平台
版权所有:搜学搜课(www.soxsok.com)