spark outline

原创已于 2024-03-16 14:19:29 修改 · 744 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

收录于

Spark

于 2022-09-08 17:39:36 首次发布

本文深入探讨Spark的核心组件，包括RDD的创建和分区、Transformation与Action算子、序列化和依赖关系。此外，还介绍了SparkSQL的DataFrame和DataSet操作，以及SparkStreaming的实时处理原语和项目实战。最后，涵盖了Spark内核的基本概念。

SparkCore

RDD 概述特性

Spark RDD 概述特性

RDD的创建和分区规则

Spark RDD 创建和分区规则

Transformation转换算子

1. Value类型

Spark map和mapPartitions

Spark mapPartitionsWithIndex

Spark coalesce和repartition

2. 双Value类型

Spark union并集, subtract差集, intersection交集, zip拉链

3. Key-Value类型

Spark partitionBy

Spark reduceByKey

Spark groupByKey

Spark aggregateByKey

Spark foldByKey

Spark combineByKey

Spark reduceByKey、aggregateByKey、foldByKey、combineByKey 小结

Spark sortByKey

Spark mapValues

Spark join和cogroup

SparkCore 阶段练习：广告点击Top3

Action 行动算子

spark Action 行动算子

RDD序列化闭包检查序列化方法和属性 Kryo序列化框架

spark 序列化序列化方法和属性 Kryo序列化框架

RDD依赖关系

spark 窄依赖宽依赖 Spark job 划分 DAG有向无环图

RDD持久化

RDD Cache缓存 CheckPoint检查点缓存和检查点区别检查点存储到HDFS集群链接

spark 分区器

spark 分区器

Spark Core IO 读写

RDD 读取json 读取MySQL 写入MySQL链接

累加器

spark 自定义累计器

广播变量

spark 广播变量链接

SparkCore项目实战

SparkCore项目实战需求一Top10热门品类需求二Top10热门品类中每个品类的Top10活跃Session统计需求三计算页面单跳转换率链接

Spark SQL

Spark SQL DataFrame DataSet概述

Spark SQL DataFrame DataSet概述链接

Spark SQL API

Spark SQL API SQL & DSL风格 RDD DF DS 三者之间的转换用户自定义函数UDF UDAF链接

Spark SQL IO 读写

Spark SQL 代码读取mysql&代码读取hive

SparkSQL项目实战：TopN

SparkSQL项目实战：TopN链接

Spark Streaming

Spark Streaming概述特点架构

Spark Streaming概述特点架构

DStream创建通过监听端口自定义数据源 Kafka数据源

DStream创建通过监听端口自定义数据源 Kafka数据源链接

DStream无状态化转换原语&有状态转化原语

DStream无状态化转换原语&有状态转化原语

DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

Spark Streaming项目实战

Spark Streaming项目实战项目一每天每地区热门广告Top3 项目二最近12s广告点击量实时统计

Spark 内核

标签

#spark

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。