SparkCore
1. Value类型
2. 双Value类型
Spark union并集, subtract差集, intersection交集, zip拉链
3. Key-Value类型
Spark reduceByKey、aggregateByKey、foldByKey、combineByKey 小结
spark 窄依赖 宽依赖 Spark job 划分 DAG有向无环图
RDD Cache缓存 CheckPoint检查点 缓存和检查点区别 检查点存储到HDFS集群链接
SparkCore项目实战 需求一Top10热门品类 需求二Top10热门品类中每个品类的Top10活跃Session统计 需求三计算页面单跳转换率链接
Spark SQL
Spark SQL DataFrame DataSet概述
Spark SQL DataFrame DataSet概述 链接
Spark SQL API SQL & DSL风格 RDD DF DS 三者之间的转换 用户自定义函数UDF UDAF链接
Spark Streaming
DStream创建 通过监听端口 自定义数据源 Kafka数据源链接
DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据
Spark Streaming项目实战 项目一每天每地区热门广告Top3 项目二最近12s广告点击量实时统计
本文深入探讨Spark的核心组件,包括RDD的创建和分区、Transformation与Action算子、序列化和依赖关系。此外,还介绍了SparkSQL的DataFrame和DataSet操作,以及SparkStreaming的实时处理原语和项目实战。最后,涵盖了Spark内核的基本概念。
1492

被折叠的 条评论
为什么被折叠?



