3D 并行 (3D Parallelism)详解

最新推荐文章于 2026-04-17 16:10:59 发布

原创最新推荐文章于 2026-04-17 16:10:59 发布 · 818 阅读

本内容遵循CC 4.0 BY-SA版权协议

3D 并行 (3D Parallelism) 实战演练：打造 LLM 训练的“超级工厂”

导读：在实际的千亿参数模型训练中，单一的并行策略往往捉襟见肘。我们通常需要混合使用 数据并行 (DP)、流水线并行 (PP) 和 张量并行 (TP) 这三种策略，构建一个高效的 3D 并行系统。本文将通过一个具体的“超级工厂”场景，带你一步步搭建这套复杂的系统。

我正在学习LLM，这是我用Gemini生成的内容，最下面我自己照着他举的例子，理解着画了一张图，大家可以一起看看，如果我画的不对，大家也可以批评指正。

假设我们要训练一个 Llama-3-70B（700 亿参数）级别的模型。

面临的挑战：

解决方案：我们将这 32 张卡组织成一个 3D 并行系统。设定并行度为：TP=4, PP=4, DP=2。

核心逻辑：利用单机内部的高速互联，解决“单层算不动”的问题。

我们将视角聚焦在**第 1 台服务器（Node 1）**上。里面的 8 张卡不再是单独作战的个体。我们将每 4 张卡 捆绑成一个紧密协作的“TP 小组”。

TP Group 1: 包含 GPU 0, 1, 2, 3
- 这 4 张卡利用 NVLink 实现高速互联，这是 TP 高频通信的基础。
- 它们合力存放并计算模型第 1 层（以及后续层）的权重矩阵。
- 运作方式：正如 TP 原理所述，巨大的权重矩阵 $W$ 被切分为 4 份，每张卡负责一部分计算。每层计算结束时，必须立刻进行 All-Reduce 通信拼装结果。
- 对外表现：在外界看来，这 4 张卡仿佛合体成了一张拥有超大显存和算力的“超级显卡”，能够处理单个 GPU 无法应对的巨大矩阵乘法。
TP Group 2: 包含 GPU 4, 5, 6, 7
- 这是同一个机器里的第二个 TP 小组，同样由 4 张卡合体而成。

现状总结：通过 TP，我们成功将 32 张独立的显卡，转化为了 8 个强力的“TP 小组”（每组 4 卡）。

核心逻辑：通过跨机器的层数切分，解决“层数太多装不下”的问题。

现在的“TP 小组”虽然算力强大，但显存容量依然有限，无法一次性装下完整的 80 层模型。假设每个小组只能容纳 20 层。
因此，我们需要采用“接力赛”的方式，将 4 个分布在不同机器上的“TP 小组”串联起来。

我们将 80 层的模型切分为 4 个阶段（Stages）：

运作流程：

现状总结：这 4 个跨机器的 TP 小组，串联组成了一条完整的模型流水线 (Model Replica)。

资源消耗：这条流水线共占用了 $(\text{TP}) \times 4 (\text{PP}) = 16$ 张显卡。

核心逻辑：通过复制完整模型实例，解决“数据吞吐量不足”的问题。

回顾总资源池，我们一共有 32 张卡。刚才搭建第一条完整的流水线只用了 16 张卡（即 Node 1-4 的前半部分资源）。
剩下的 16 张卡（即 Node 1-4 的后半部分，也就是各自的 TP Group 2）该如何利用呢？

答案是：利用 DP 思想，再建一条一模一样的流水线，进行并行训练。

运作流程：

数据切分：假设一个大 Batch 有 100 条数据。Pipeline A 负责处理前 50 条，Pipeline B 负责处理后 50 条。
并行狂奔：两条流水线同时开工，互不干扰地进行前向和反向计算。
最后同步 (All-Reduce)：当两条流水线都完成一次反向传播并算出梯度后，处于相同逻辑位置的显卡（例如 Pipeline A 的 GPU 0 和 Pipeline B 的 GPU 4，它们都存储着完全相同的模型参数分片）会进行跨机器通信，将各自计算出的梯度进行平均，以保证模型权重更新的一致性。

为了更直观地理解这个复杂的 3D 结构，我们将其整理为一张架构图。
假设：GPU (i, j) 代表第 i 台机器的第 j 张卡。

维度	具体构成	通信特点	CV 类比
1. TP (深度)	`[GPU 0,1,2,3]` 是一组 `[GPU 4,5,6,7]` 是一组	通信最频繁必须用 NVLink (机器内部)	单个卷积核拆开算
2. PP (长度)	Node 1 的组 -> Node 2 的组 -> …	通信中等传激活值 (跨机器网线)	特征图层层传递
3. DP (宽度)	`Pipeline A` (上半区) `Pipeline B` (下半区)	通信最少仅反向传播更新时 (跨机器)	DDP 多卡训练