什么是Spark、Spark特点、Spark Streaming和Storm的区别

最新推荐文章于 2024-09-24 16:20:32 发布

原创

最新推荐文章于 2024-09-24 16:20:32 发布 · 2.9k 阅读

收录于

当前文章被以下社区和专栏收录：

Spark是一个内存计算的开源框架，专注于大数据处理，提供离线批处理、交互式查询、实时流计算等多种功能。与Hadoop结合，成为大数据热门解决方案。Spark以其高速度、多语言API和多种运行模式脱颖而出。相比Storm，Spark Streaming是基于RDD的批量流处理，虽不是严格意义上的实时，但具有更高吞吐量，并能与Spark生态系统无缝整合，适合对实时性要求不那么高的场景。

Spark是一个基于内存的开源计算框架

Spark主要应用于大数据的计算,而Hadoop将主要用于大数据的存储（HDFS、HIVE、 Hbase等），Saprk+Hadoop组合，是未来大数据领域最热门的组合.

Apache官方给出的定义是：通用的大数据快速处理引擎

Spsrk使用Spark RDD、Spark SQL、Spark Streaming、Mllib、GraphX成功的解决了大数据领域中：离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题
Spark除了一站式的特点之外，另一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MR、Hive的数倍甚至数十倍
Spark导图
在这里插入图片描述 Spark特点
快速
Spark是基于内存的大数据处理框架
Spark具有优秀的作业调度策略
简洁易用
Spark提供了支持多种语言的API，如Scala、Java、Python、R等
Spark是基于Scala语言开发的，由于Scala是一种面向对象的、函数式的静态编程语言
通用
在这里插入图片描述
多运行模式
本地模式