DAG有向无环图

原创

已于 2024-04-11 09:33:44 修改 · 1.4k 阅读

标签

#大数据

收录于

于 2024-04-11 09:31:30 首次发布

本文介绍了DAG（有向无环图）在Spark中的应用，阐述了其作为解决Hadoop MapReduce局限性的关键。DAG用于描述计算逻辑，优化计算计划，减少数据shuffle。DAGScheduler将operator graph划分为调度阶段（Stage），Task Scheduler根据Stage启动任务。RDD依赖关系分为窄依赖和宽依赖，影响Stage划分。

DAG，全称 Directed Acyclic Graph，中文为：有向无环图。在 Spark 中，使用 DAG 来描述我们的计算逻辑。

基础概念

介绍DAGScheduler中的一些概念，有助于理解后续流程。
作业（Job）调用RDD的一个action，如count，即触发一个Job，spark中对应实现为ActiveJob，DAGScheduler中使用集合activeJobs和jobIdToActiveJob维护Job
调度阶段（Stage ）代表一个Job的DAG，会在发生shuffle处被切分，切分后每一个部分即为一个Stage，Stage实现分为ShuffleMapStage和ResultStage，一个Job切分的结果是0个或多个ShuffleMapStage加一个ResultStage
任务（Task ）最终被发送到Executor执行的任务，和stage的ShuffleMapStage和ResultStage对应，其实现分为ShuffleMapTask和ResultTask

DAG概述

DAG 是一组顶点和边的组合。顶点代表了 RDD， 边代表了对 RDD 的一系列操作。
DAG Scheduler 会根据 RDD 的 transformation 动作（算子），将 DAG 分为不同的 stage，每个 stage 中分为多个 task，这些 task 可以并行运行。

在这里插入图片描述

DAG解决问题

DAG 的出现主要是为了解决 Hadoop MapReduce 框架的局限性。
主要有两个：
1、每个 MapReduce 操作都是相互独立的，HADOOP不知道接下来会有哪些Map Reduce。
2、每一步

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鹏鹏楠楠

关注关注

23
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

通俗易懂理解spark的DAG

SunnyRivers

05-15

2221

百度百科对DAG无回路有向图。Spark的DAG（有向无环图）是一个基本概念，在Spark执行模型中起着至关重要的作用。DAG是“定向的”，因为操作是按特定顺序执行的，而“非循环的”是因为执行计划中没有循环或循环。这意味着每个阶段都取决于前一阶段的完成情况，并且一个阶段中的每个任务都可以独立运行。在高层，DAG表示Spark作业的逻辑执行计划。提交Spark应用程序时，Spark会将应用程序代码中指定的高级操作（如transformation和action）转换为stage和task的DAG。

Spark构建DAG（有向无环图）

swg321321的博客

07-06

4800

Spark构建RDDDAG，将RDDDAG的拆分，拆分后DAGScheduler，DAGScheduler转换为TaskScheduler，TaskScheduler到具体的Worker和Task执行。

参与评论您还未登录，请先登录后发表或查看评论

Spark的DAG的生成过程详解

LBJ_小松鼠的博客

01-25

5479

1. DAG详解 DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就形成了DAG，根据RDD之间依赖关系的不同将DAG划分成不同的Stage(调度阶段)。对于窄依赖，partition的转换处理在一个Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。 DAG的边界: 开始:通过SparkContext创建的RDD 触发Action，一旦触发A

Spark深入解读（十二）---- 有向无环图DAG(代码及图解)

最新发布

每个人都是独一无二的，把握好自己的节奏，跟着自己的心走。

08-10

1万+

本文详解如何使用Java数组+链表实现DAG拓扑排序，并基于DFS+递归栈完成成环检测，附完整源码与测试案例，助力高性能任务编排与依赖管理。

Python生成依赖性应用的DAG(有向无环图)拓扑

qq_26606467的博客

10-05

3606

因为研究方向设计到依赖性的应用，做实验需要用到一些随机的DAG(有向无环图)拓扑来作为应用的表示，找了找网上没有符合的代码，于是决定自己写个小脚本来生成大量随机的DAG拓扑。我实验中要用到的依赖性应用拓扑类似于下面这种模式：观察到，DAG包括一个入口节点和一个出口节点，其余的节点都是具有依赖关系的中继节点图中入口节点的入度和出口节点的出度都为0，其余任意节点都至少有一条入边和一条出边。根据有向无环图的性质，每一个有向无环图中的所有节点能形成有限个拓扑序，拓扑序中的节点只能向后序的节点出边（即一条依赖

有向无环图DAG与PyTorch动态计算图

xw555666的博客

01-30

2319

在机器学习和深度学习中，计算图（Computational Graph）确实是一个有向无环图（DAG）的具体应用实例。它将神经网络中的所有运算步骤组织成一个有序的结构，每个节点代表一个数学操作或张量（如加法、矩阵乘法、激活函数等），边则表示了数据流的方向和依赖关系。

Spark 内核调度之DAG

不忘初欣丶的博客

04-06

1663

spark DAG有向无环图和宽窄依赖划分

Spark之RDD依赖关系及DAG逻辑视图

weixin_30436891的博客

06-17

388

　　RDD依赖关系为成两种：窄依赖（Narrow Dependency）、宽依赖（Shuffle Dependency）。窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition所使用；宽依赖表示一个父RDD的Partition都会被多个子RDD的Partition所使用。一、窄依赖解析　　RDD的窄依赖（Narrow Dependency）是RDD中最常见的依赖...

Spark中的DAG介绍

weixin_41655296的博客

04-25

8060

1 DAG的介绍 DAG:全称为 Directed Acyclic Graph 中文为：有向无环图 在spark中，使用DAG来描述我们的计算逻辑。 2 Spark中的DAG DAG是一组顶点与边的组合，顶点代表RDD，边代表对RDD的一系列操作。 DAG Sheduler根据RDD的不同transformation操作，讲DAG分为不同的stage，每个stage中又分为多个task。 3 DAG解决的问题 DAG的出现主要是为了解决MapReduce框架的局限性。MapReduce框架

Spark的DAG图

qq_41544550的博客

05-29

5949

DAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。 ...

大数据之Spark 数据依赖图DAG

ytp552200ytp的博客

09-12

1403

大数据之Spark 数据依赖图DAG

Spark的有向无环图DAG(代码及图解)

kebu12345678的博客

02-15

1057

Spark的有向无环图DAG(代码及图解)标签： spark2017-01-03 18:21 4497人阅读评论(0) 收藏举报分类：【大数据】Spark（20）版权声明：本文为博主原创文章，出处为 http://blog.csdn.net/silentwolfyh http://blog.csdn.net/silentwolfyh/article/details/53996845目录(?...

Spark 内核调度

wodlx_的博客

04-09

565

Spark的核心是根据RDD来实现的，Spark Scheduler则为Spark核心实现的重要一环，其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行。基于Spark的任务调度原理，可以合理规划资源利用，做到尽可能用最少的资源高效地完成任务计算。最后面的Action算子带了各自的链条，每个产生一个Job，同时每个Job有各种的DAG图。如图便产生3个DAG。

什么是DAG，为何Spark依靠DAG实现了大数据霸主地位

m0_73889530的博客

02-16

2488

边（Edge）具有方向（如A→B）

Spark基础 DAG

zhangvalue的博客

12-03

1万+

为什么使用spark的原因是早期的编程模式MapReduce缺乏对数据共享的高效元语，会造成磁盘I/O 以及序列号等开销，spark提出了统一的编程抽象---弹性分布式数据集（RDD）,该模型可以令并行计算阶段间高效地进行数据共享。spark处理数据时，会将计算转化为一个有向无环图(DAG)的任务集，RDD能够有效的恢复DAG中故障和慢节点执行的任务，并且RDD提供一种基于粗粒度变换的...

Spark 的 DAG（有向无环图）是如何生成的？它在任务调度中的作用是什么？

weixin_45422672的博客

02-17

1176

在 Spark 中，DAG（有向无环图）是任务调度的核心机制之一。DAG 用于表示 RDD（弹性分布式数据集）之间的依赖关系和计算任务的执行流程。以下是 DAG 的生成过程及其在任务调度中的作用：解析逻辑计划：优化逻辑计划：生成 RDD 依赖关系：划分 Stage：生成 TaskSet：优化执行计划：并行执行：容错性：资源管理：以下是一个简单的示例，展示了如何在 Spark 中生成和执行一个 DAG：

简单了解spark、flink执行任务过程中的DAG有向无环图

数据开发探索者

05-09

2751

01 什么是DAG？ DAG：Directed Acyclic Graph，中文意为「有向无环图」。 DAG原本是计算机领域一种常用数据结构，因为独特的拓扑结构所带来的优异特性，经常被用于处理动态规划、导航中寻求最短路径、数据压缩等多种算法场景。我们直观点来理解：这就要从太阳系说起了，了解太阳系的运转方式有利于大家更加直观的了解什么是DAG。上学时候老师教我们银河系中的星球都是围绕着太阳旋转的，还在课本中生动的附上了一张生动的图。地理老师通常告诉我们太阳系中的行星都是按照圆轨道围着太阳转的，理论是没