RDDs的血统关系图:
Spark维护着RDDs之间的依赖关系和创建关系, 叫做 血统关系图
Spark使用血统关系来计算每个RDD的需求和恢复丢失的数据
延迟计算(Lazy Evaluation)
Spark第一次使用Action操作是才进行真正的计算, 以减少数据传输
Spark 内部记录metadata 表明 transformations操作已经响应
加载数据也是延时计算, 数据只有在必要的时候才会被加载进去
RDD缓存
默认每次在RDDs上面进行action操作时Spark都重新计算RDDs, 如果向重复利用一个RDD,可以使用RDD.persist(), 以免进行重复的计算
unpersist()方法从缓存移除
缓存级别


Spark中的Resilient Distributed Datasets (RDDs)保持着血统关系图,用于跟踪计算历史和数据恢复。这种血统关系使得Spark在执行Action操作时进行延迟计算,即仅在必要时才进行实际计算,并记录transformations操作。RDD缓存功能允许用户通过persist()方法存储中间结果,以避免重复计算,而unpersist()方法用于从缓存中移除RDD。缓存级别提供了不同的持久化策略以优化性能。

被折叠的 条评论
为什么被折叠?



