Spark流是Spark核心API的扩展,它提供了以高扩展,高吞吐量,高容错性的流的方式来处理实时数据的方法。
数据的涞源有很多,可以来自Kafka, Flume, Twitter, ZeroMQ, Kinesis或者TCP sockets。通过使用高级别的函数,比如map,reduce,join,window等,可以用复杂的算法来处理数据。
最后,处理后的数据能够被推送至文件系统,数据库,或者实时的dashboards。实际上,你可以在数据流上应用Spark的机器学习和图形处理算法。
Spark流的内部工作原理如下图。Spark流接收实时数据流,并将数据划分批次,然后交于Spark引擎生成最终成批的结果数据流。
Spark流提供了一个称为离散流或者DSTREAM的高层抽象,它代表了一个连续
本文介绍了Spark流编程的基本概念,它作为Spark核心API的扩展,用于处理实时数据流,支持从Kafka、Flume等源获取数据,并利用map、reduce等函数进行处理。处理后的数据可输出到文件系统、数据库或实时仪表板。DStream是Spark流中的关键抽象,表示持续的数据流,可通过高级操作构建。文章预告将深入探讨如何使用Scala、Java、Python编写Spark流程序。
订阅专栏 解锁全文
3036

被折叠的 条评论
为什么被折叠?



