RDDs的特性

原创于 2020-11-30 22:11:07 发布 · 328 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#spark

spark 专栏收录该内容

10 篇文章

订阅专栏

Spark中的Resilient Distributed Datasets (RDDs)保持着血统关系图，用于跟踪计算历史和数据恢复。这种血统关系使得Spark在执行Action操作时进行延迟计算，即仅在必要时才进行实际计算，并记录transformations操作。RDD缓存功能允许用户通过persist()方法存储中间结果，以避免重复计算，而unpersist()方法用于从缓存中移除RDD。缓存级别提供了不同的持久化策略以优化性能。

RDDs的血统关系图：

Spark维护着RDDs之间的依赖关系和创建关系，叫做血统关系图

Spark使用血统关系来计算每个RDD的需求和恢复丢失的数据

延迟计算（Lazy Evaluation）

Spark第一次使用Action操作是才进行真正的计算，以减少数据传输

Spark 内部记录metadata 表明 transformations操作已经响应

加载数据也是延时计算，数据只有在必要的时候才会被加载进去

RDD缓存

默认每次在RDDs上面进行action操作时Spark都重新计算RDDs, 如果向重复利用一个RDD,可以使用RDD.persist(), 以免进行重复的计算

unpersist()方法从缓存移除

缓存级别

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。