写在前面

欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的 《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源: 【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章: 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
AIGC算法岗/开发岗面试面经交流社群(涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0
大家好,我是Rocky。
核心导读
MultiDiffusion 这篇论文表面上解决的是两个很具体的问题:如何让一个原本擅长生成正方形图像的 Stable Diffusion 生成超宽全景图,以及如何让用户用粗略区域、框、mask 去控制不同区域里应该出现什么内容。
但 Rocky 认为,这篇工作的真正价值不在于“全景图生成”本身,而在于它提出了一种更跨周期的思路:当基础模型已经足够强时,很多能力不一定要靠重新训练模型获得,而可以在推理过程里把多个局部生成路径组织成一个全局一致的优化问题。
这句话听起来像一个技术细节,实际背后是 AIGC 产品演进里非常重要的一条线:工具红利会迭代,模型会换代,但“如何把基础模型能力组织成可控、可组合、可落地的系统能力”会长期存在。MultiDiffusion 的本质,就是把扩散模型的单一路径采样,改造成多条路径之间的协同求解。

图 1 是论文的总览图。作者展示了两个核心能力:一种是改变图像宽高比,比如生成 panorama;另一种是区域级文本控制,比如左边区域是某个对象,右边区域是另一个对象。真正值得注意的是,这些能力并不是通过为每个任务训练一个专用模型获得的,而是通过同一个推理时融合框架挂在预训练扩散模型之上。
从产业视角看,这意味着一个判断:模型能力越来越强之后,单点微调不是唯一杠杆,推理时控制、约束、调度和系统组合会变得越来越重要。 这也是今天很多 AI Agent、图像工作流、视频生成工作流反复遇到的问题:底层模型给出能力边界,真正的产品价值来自如何把这些能力稳定地放进用户可控的流程里。
问题背景:作者到底想解决什么
文本到图像扩散模型已经能生成高质量图像,但真实创作场景里,用户要的往往不是“给我一张随机好看的图”,而是“按我的版式、比例、区域、对象关系生成一张图”。这就是 controllable generation 的核心矛盾:生成质量越来越强,控制能力却常常落后于用户需求。
在 MultiDiffusion 之前,常见路径大体有两类。第一类是为控制信号训练或微调模型,例如用语义布局、mask、inpainting 数据、图文区域数据训练专门模型。这条路效果可以很强,但代价是数据、算力、训练周期和任务绑定。第二类是不训练模型,只在预训练模型的生成过程上做任务特定的技巧,例如图像编辑、局部修补、prompt manipulation 等。这条路灵活,但常常缺少统一目标函数,容易变成一个个任务上的 ad hoc 工程。
MultiDiffusion 试图走第三条路:保留预训练模型不变,但重新定义生成过程。它不问“我要不要训练一个新模型”,而问“能不能把多个预训练模型给出的局部去噪方向,融合成一个全局一致的去噪方向”。这就是论文标题里 Fusing Diffusion Paths 的含义。
Rocky 认为,这个问题意识非常重要。因为在 AIGC 的很多落地场景里,难点已经不只是生成一个好样本,而是让生成过程服从约束:比例约束、空间约束、对象约束、风格约束、时序约束、品牌约束、编辑约束。单次生成质量是模型能力,约束下的稳定生成才是产品能力。
核心思路:用一句主线串起来
MultiDiffusion 的主线可以概括为一句话:
把一个固定的预训练扩散模型看作“局部去噪方向提供者”,在每个采样步上收集多个局部方向,再通过最小二乘优化把它们融合成一个全局图像更新。
传统扩散采样可以理解为一条路径:从噪声图像开始,每一步根据文本条件去噪,直到得到最终图像。MultiDiffusion 则让同一个全局图像在每一步被拆成多个视角、多个区域、多个条件:每个局部视角都询问预训练模型“你认为这一块下一步应该往哪里去”,然后把这些不同方向融合回一张全局图像。

图 2 是这篇论文最核心的机制图。参考扩散模型 Φ \Phi Φ 保持不变;MultiDiffusion 定义一个新的生成过程 Ψ \Psi Ψ。对于当前全局噪声图 J t J_t Jt,系统通过一组映射 F i F_i Fi 抽取多个局部视角,例如不同 crop 或不同区域;每个局部视角送入预训练扩散模型得到一个局部去噪结果;最后通过一个全局优化问题,找出最接近所有局部建议的 J t − 1 J_{t-1} Jt−1。
这里有一个很本质的转变:扩散模型不再只是“完整图像生成器”,而变成了“局部生成先验”。全局一致性不完全交给模型内部学出来,而是在推理时通过显式优化组织出来。
方法展开:沿着论文原始逻辑拆解
1. 先定义参考扩散模型:原始模型只负责提供去噪路径
论文从一个预训练扩散模型开始,记为:
Φ : I × Y → I \Phi:\mathcal{I}\times\mathcal{Y}\to\mathcal{I} Φ:I×Y→I
其中 I = R H × W × C \mathcal{I}=\mathbb{R}^{H\times W\times C} I=RH×W×C 是参考模型原本工作的图像空间, Y \mathcal{Y} Y 是条件空间,例如文本 prompt。传统扩散过程从噪声 I T I_T IT 开始,逐步得到:
I T , I T − 1 , … , I 0 s.t. I t − 1 = Φ ( I t ∣ y ) I_T,I_{T-1},\ldots,I_0 \quad\text{s.t.}\quad I_{t-1}=\Phi(I_t|y) IT,IT−1,…,I0s.t.It−1=Φ(It∣y)
这一步没有新奇之处。关键在下一步:作者不修改 Φ \Phi Φ,而是在 Φ \Phi Φ 之外定义一个新的目标空间 J \mathcal{J} J,例如更宽的全景图空间,或带多区域条件的图像空间。新的生成过程记为:
Ψ : J × Z → J \Psi:\mathcal{J}\times\mathcal{Z}\to\mathcal{J} Ψ:J×Z→J
对应的采样序列是:
J T , J T − 1 , … , J 0 s.t. J t − 1 = Ψ ( J t ∣ z ) J_T,J_{T-1},\ldots,J_0 \quad\text{s.t.}\quad J_{t-1}=\Psi(J_t|z) JT,JT−1,…,J0s.t.Jt−1=Ψ(Jt∣z)
这意味着 MultiDiffusion 并不是训练一个新的图像模型,而是在旧模型外面定义一个新的采样动力系统。Rocky 认为,这一点是这篇论文最值得记住的地方:它没有试图扩展模型参数本身,而是扩展模型被使用的方式。
2. 再定义映射:把全局图像拆成多个局部问题
为了让 Ψ \Psi Ψ 与 Φ \Phi Φ 保持一致,作者定义了一组从目标图像空间到参考图像空间的映射:
F i : J → I F_i:\mathcal{J}\to\mathcal{I} Fi:J→I
同时定义条件空间映射:
λ i : Z → Y \lambda_i:\mathcal{Z}\to\mathcal{Y} λi:Z→Y
直观理解, F i F_i Fi 决定“我从全局图像里取哪一块给参考模型看”, λ i \lambda_i λi 决定“这一块对应什么文本条件”。在 panorama 任务里, F i F_i Fi 是从超宽图像中取一个 512 × 512 512\times512 512×512 crop;在区域控制任务里, F i F_i Fi 可以对应整图或被 mask 调节的区域, λ i \lambda_i λi 则把全局多区域描述拆成每个区域的文本 prompt。
设:
I t i = F i ( J t ) , y i = λ i ( z ) I_t^i=F_i(J_t),\quad y_i=\lambda_i(z) Iti=Fi(Jt),yi=λi(z)
那么在每个时间步 t t t,参考模型会对每个局部输入给出自己的去噪建议:
Φ ( I t i ∣ y i ) \Phi(I_t^i|y_i) Φ(Iti∣yi)
问题是,这些局部建议可能互相冲突。一个 crop 想把重叠区域往某个方向去噪,另一个 crop 可能给出另一个方向。MultiDiffusion 的方法不是选一个方向,而是把这些方向放进一个最小二乘问题里。
3. Follow-the-Diffusion loss:让全局更新尽量贴近所有局部路径
论文定义了核心优化问题:
Ψ ( J t ∣ z ) = arg min J ∈ J L F T D ( J ∣ J t , z ) \Psi(J_t|z)=\arg\min_{J\in\mathcal{J}}\mathcal{L}_{\mathrm{FTD}}(J|J_t,z) Ψ(Jt∣z)=argJ∈JminLFTD(J∣Jt,z)
其中 FTD loss 是:
L F T D ( J ∣ J t , z ) = ∑ i = 1 n ∥ W i ⊗ [ F i ( J ) − Φ ( I t i ∣ y i ) ] ∥ 2 \mathcal{L}_{\mathrm{FTD}}(J|J_t,z)= \sum_{i=1}^n \left\| W_i\otimes \left[ F_i(J)-\Phi(I_t^i|y_i) \right] \right\|^2 LFTD(J∣Jt,z)=i=1∑n Wi⊗[Fi(J)−Φ(Iti∣yi)] 2
W i W_i Wi 是像素级权重, ⊗ \otimes ⊗ 是 Hadamard product。这个损失的含义非常直接:新的全局图像 J J J 经过每个 F i F_i Fi 抽取后,都应该尽量接近对应局部扩散路径给出的下一步结果。
Rocky 认为,这里最有启发的是“跟随扩散路径”这个思想。作者没有把控制信号硬塞进模型,也没有要求模型理解所有全局约束,而是把预训练模型天然擅长的局部生成能力当作先验,再在全局层面求一个折中解。它是一种很典型的系统工程思维:让模型做它擅长的事,让优化框架负责组织多个模型调用之间的一致性。
4. 闭式解:很多任务里,融合其实就是加权平均
在论文展示的应用中, F i F_i Fi 通常是直接像素采样,例如取 crop。因此上面的 FTD loss 是一个二次最小二乘问题,可以得到闭式解:
Ψ ( J t ∣ z ) = ∑ i = 1 n F i − 1 ( W i ) ∑ j = 1 n F j − 1 ( W j ) ⊗ F i − 1 ( Φ ( I t i ∣ y i ) ) \Psi(J_t|z)= \sum_{i=1}^n \frac{F_i^{-1}(W_i)} {\sum_{j=1}^n F_j^{-1}(W_j)} \otimes F_i^{-1}\left(\Phi(I_t^i|y_i)\right) Ψ(Jt∣z)=i=1∑n∑j=1nFj−1(Wj)Fi−1(Wi)⊗Fi−1(Φ(Iti∣yi))
这个公式看起来有点长,本质上就是:把每个局部去噪结果放回全局画布,在重叠位置按权重做平均。对于 panorama,多个 crop 的重叠区域会共同决定全局图像;对于区域控制,每个 mask 指定哪些像素更应该听哪个 prompt 的去噪方向。
这也是 MultiDiffusion 与很多“拼接式”方法的不同。它不是先生成一块,再补另一块,而是在每个去噪时间步同步协调所有局部路径。同步协调比事后拼接更重要,因为扩散生成的全局结构往往在早期时间步就开始形成,晚期再修补会更容易出现割裂、重复和局部不一致。
5. 性质命题:如果局部路径完全一致,就等价于参考模型采样
论文给出一个性质:如果初始分布 P J P_{\mathcal{J}} PJ 满足:
F i ( J T ) ∼ P I , ∀ i ∈ [ n ] F_i(J_T)\sim P_{\mathcal{I}},\quad \forall i\in[n] Fi(JT)∼PI,∀i∈[n]
并且每一步 FTD loss 都能降到 0,那么每个局部序列 I t i = F i ( J t ) I_t^i=F_i(J_t) Iti=Fi(Jt) 都会复现参考模型 Φ \Phi Φ 的扩散路径。换句话说,每个局部最终结果 F i ( J 0 ) F_i(J_0) Fi(J0) 在分布上等同于来自参考扩散模型的样本。
这个命题的价值不在于现实中总能 loss 为 0,而在于它解释了 MultiDiffusion 的合理性:只要全局更新能足够贴近局部参考路径,那么全局图像的各个局部就仍然继承了参考模型的生成先验。它不是任意的图像拼接,而是在每一步都尽力保持“局部像参考模型生成的真实样本”。
算法流程可以概括为:
| 步骤 | 含义 |
|---|---|
| 输入 | 预训练扩散模型 Φ \Phi Φ、一组图像映射 { F i } \{F_i\} {Fi}、文本条件 { y i } \{y_i\} {yi}、像素权重 { W i } \{W_i\} {Wi} |
| 初始化 | 从目标空间采样噪声 J T ∼ P J J_T\sim P_{\mathcal{J}} JT∼PJ |
| 每个时间步 | 对所有局部 F i ( J t ) F_i(J_t) Fi(Jt) 调用参考模型,得到 Φ ( F i ( J t ) , y i ) \Phi(F_i(J_t),y_i) Φ(Fi(Jt),yi) |
| 融合 | 用闭式解或优化器把局部结果融合成 J t − 1 J_{t-1} Jt−1 |
| 输出 | 得到目标图像 J 0 J_0 J0 |
应用一:全景图不是“拼接”,而是多路径同时采样
全景生成是 MultiDiffusion 的第一个应用。参考模型原本在固定分辨率上训练,例如 Stable Diffusion 的潜空间对应 512 × 512 512\times512 512×512 输出。如果直接要求它生成 512 × 4608 512\times4608 512×4608 的超宽图,它不具备这个原生输出空间。传统做法通常是从中间图开始,逐步向左右外推;问题是外推越远,语义和风格越容易漂移。
MultiDiffusion 的做法是:把目标全景图 J J J 看作一个更宽的潜空间,定义多个 H × W H\times W H×W crop,让每个 crop 都像一个参考模型可以处理的普通图像。对于同一个文本 prompt z z z,目标函数变成:
Ψ ( J t , z ) = arg min J ∈ J ∑ i = 1 n ∥ F i ( J ) − Φ ( F i ( J ) , z ) ∥ 2 \Psi(J_t,z)= \arg\min_{J\in\mathcal{J}} \sum_{i=1}^n \left\| F_i(J)-\Phi(F_i(J),z) \right\|^2 Ψ(Jt,z)=argJ∈Jmini=1∑n∥Fi(J)−Φ(Fi(J),z)∥2
这里的关键不是“把生成好的小图贴到一起”,而是每一步都让所有 crop 同时提出去噪建议,再把这些建议融合到同一个全局图像里。

图 3 很好地说明了这一点。上图是把四个 crop 分别独立生成,结果看起来像四张互不相干的图;下图使用 MultiDiffusion,从同样的噪声出发,但每一步都融合局部路径,因此得到更一致的 panorama。
这张图背后的本质是:扩散模型的随机性不是问题,缺少全局约束才是问题。独立采样会让每个局部都“合理”,但整体不合理;MultiDiffusion 用共享像素和统一优化目标,把局部合理性变成全局一致性。

图 4 对比了 BLD、Stable Inpainting 和 MultiDiffusion。论文指出,基线方法容易出现重复内容、可见接缝、远离中心后质量下降等问题;MultiDiffusion 因为同步采样所有 crop,能更好地保持无缝和多样性。
对应的定量结果如下。
| 方法 | FID ↓ | CLIP-score ↑ | CLIP-aesthetic ↑ |
|---|---|---|---|
| Stable Diffusion | 6.05 ± 3.1 | 0.27 | 6.36 |
| SI | 45.5 ± 14.5 | 0.26 | 5.76 |
| BLD | 18.4 ± 7.4 | 0.27 | 6.02 |
| Ours | 10.3 ± 4.8 | 0.27 | 6.36 |
Table 1 的评估方式也值得细看。作者不是直接计算整张 panorama 的 FID,而是从 panorama 中随机采样 512 × 512 512\times512 512×512 crop,与参考模型 Φ \Phi Φ 生成的普通图片分布比较。这说明作者关心的是:全景图的局部是否仍然像预训练模型会生成的真实样本。
从结果看,MultiDiffusion 的 FID 明显优于 SI 和 BLD,但仍高于普通 Stable Diffusion 的参考分布。这是合理的,因为普通 Stable Diffusion 生成的是模型原生分辨率样本,而 MultiDiffusion 生成的是更宽的目标空间,任务难度更高。Rocky 的判断是:这里的证据能支持“MultiDiffusion 在该设置下比外推式基线更稳”,但不能把它解读成“任意超宽生成都无成本解决”。
应用二:区域级文本控制,把多个 prompt 融合到一张图里
第二个应用是 region-based text-to-image generation。输入是一组区域 mask:
{ M i } i = 1 n ⊂ { 0 , 1 } H × W \{M_i\}_{i=1}^n\subset\{0,1\}^{H\times W} {Mi}i=1n⊂{0,1}H×W
以及对应文本 prompt:
{ y i } i = 1 n ⊂ Y n \{y_i\}_{i=1}^n\subset\mathcal{Y}^n {yi}i=1n⊂Yn
目标是生成一张图,让每个区域都体现对应 prompt。这里目标图像空间与参考图像空间相同,但条件空间从一个 prompt 变成多个 prompt:
Ψ : I × Y n → I \Psi:\mathcal{I}\times\mathcal{Y}^n\to\mathcal{I} Ψ:I×Yn→I
在区域控制场景里,目标函数是:
Ψ ( J t , z ) = arg min J ∈ I ∑ i = 1 n ∥ M i ⊗ [ J − Φ ( J t ∣ y i ) ] ∥ 2 \Psi(J_t,z)= \arg\min_{J\in\mathcal{I}} \sum_{i=1}^n \left\| M_i\otimes \left[ J-\Phi(J_t|y_i) \right] \right\|^2 Ψ(Jt,z)=argJ∈Imini=1∑n∥Mi⊗[J−Φ(Jt∣yi)]∥2
直观理解是:每个 prompt 都对整张图给出一个去噪方向,但只有对应 mask 覆盖的区域更应该听这个 prompt。最终图像是多个 prompt 在像素空间里的加权折中。

图 5 的重要性在于,MultiDiffusion 并没有为区域文本生成重新训练大模型,却能与 Make-A-Scene、SpaText 这类为该任务训练的系统进行定性比较。论文也很谨慎地指出,Make-A-Scene 和 SpaText 没有公开模型,因此这里主要是与论文提供样例做定性比较。
从产品角度看,这类能力对应的是“低门槛创作控制”。用户不一定会画精确 mask,但可以画大致区域、框、布局;如果系统能把粗控制转成合理图像,创作工具就从 prompt lottery 往可编辑工作流靠近了一步。
Bootstrapping:为什么早期扩散步要特别处理 tight mask
论文还发现,图像布局在扩散过程早期就被决定。因此如果用户提供 tight mask,系统需要在早期更强地让模型关注 mask 区域。作者引入 bootstrapping 阶段:
F i ( J t , t ) = { J t , if t ≤ T i n i t M i ⊗ J t + ( 1 − M i ) ⊗ S t , otherwise F_i(J_t,t)= \begin{cases} J_t, & \text{if } t\leq T_{\mathrm{init}}\\ M_i\otimes J_t+(1-M_i)\otimes S_t, & \text{otherwise} \end{cases} Fi(Jt,t)={Jt,Mi⊗Jt+(1−Mi)⊗St,if t≤Tinitotherwise
这里 S t S_t St 是由随机常量颜色背景加噪得到的背景潜变量。论文实验中 T i n i t T_{\mathrm{init}} Tinit 设置为整个生成过程的 20%,即 T i n i t = 800 T_{\mathrm{init}}=800 Tinit=800。

图 6 展示了 bootstrapping 的作用:没有 bootstrapping 时,模型仍能在 mask 里生成目标对象,但位置和形状贴合不够紧;加入 bootstrapping 后,生成结果更贴合 tight mask。
这背后的工程启发很直接:控制信号不是在所有时间步上同等重要。扩散过程的早期更决定布局,后期更决定细节和纹理。把控制策略设计成随时间变化,本质上是尊重生成过程的内部节奏。
粗 mask 的价值:把专业编辑能力交给非专业用户

图 7 展示同一粗略布局下的多样生成。作者强调,不同随机噪声可以带来对象尺度、外观、场景效果上的差异,但仍服从相同空间控制。这里的产品价值很强:用户给的是创作意图,而不是精确像素级指令;系统负责把意图展开成多个可选结果。

图 8 则进一步说明,粗 mask 可以由新手用户直觉性给出。Rocky 认为,这一点比论文里的 benchmark 分数更接近产品本质:真正好的 AIGC 工具,不是要求用户变成 prompt 工程师或标注工程师,而是让用户用低成本表达目标,再由系统补齐生成细节。
实验与证据:结果能支撑到什么程度
论文实验使用 HuggingFace 的 Stable Diffusion v2 公开实现。Stable Diffusion 在潜空间 I = R 64 × 64 × 4 \mathcal{I}=\mathbb{R}^{64\times64\times4} I=R64×64×4 中运行,再由 decoder 解码到 [ 0 , 1 ] 512 × 512 × 3 [0,1]^{512\times512\times3} [0,1]512×512×3。MultiDiffusion 同样在潜空间中定义目标空间 J = R H ′ × W ′ × 4 \mathcal{J}=\mathbb{R}^{H'\times W'\times4} J=RH′×W′×4,最后解码到目标分辨率。
在 panorama 任务里,作者生成 512 × 4608 512\times4608 512×4608 的图像,即宽度达到原训练分辨率的 9 倍。基线包括 BLD 和 Stable Inpainting,二者都以中心图为起点逐步向左右扩展。MultiDiffusion 的优势来自同步采样所有 crop,而不是逐步外推。
在区域生成任务里,论文用 COCO 验证集构造了 1K 个样本:筛选包含 2 到 4 个前景对象、排除人类、排除面积小于图像 5% 的 mask;用 ground-truth label 构造前景 prompt,用整图 caption 作为背景 prompt。评估则用离线语义分割模型预测生成图像里的对象 mask,再与 ground-truth mask 计算 IoU。
| 方法 | IoU ↑ |
|---|---|
| COCO dataset | 0.43 ± 0.09 |
| SI | 0.16 ± 0.10 |
| BLD | 0.17 ± 0.11 |
| Ours w/o bootstrapping | 0.18 ± 0.10 |
| Ours | 0.26 ± 0.12 |
Table 2 能说明两件事。第一,MultiDiffusion 比 SI、BLD 更能遵守区域约束。第二,bootstrapping 带来的提升明显,从 0.18 到 0.26,说明“早期布局控制”不是锦上添花,而是区域控制里的关键机制。
但也要看到,COCO 原图上限是 0.43,MultiDiffusion 仍只有 0.26。这说明它能明显改善控制,但并不是完美布局生成器。尤其是 IoU 由外部分割模型间接测量,本身也会受到分割模型误差影响。严谨地说,这组实验支持的是:在作者设定的数据筛选、prompt 构造、Stable Diffusion v2 和评估模型条件下,MultiDiffusion 比选定基线更好地对齐区域控制。
这篇工作的边界与可复现性
MultiDiffusion 的最大边界,论文自己说得很清楚:它高度依赖参考扩散模型的先验。如果参考模型本身给出了错误路径,MultiDiffusion 只是融合这些路径,并不能凭空创造模型没有的世界知识、结构理解或组合泛化能力。

图 9 是一个很诚实的失败案例。左侧是竖向 panorama,参考模型倾向于在每个视角中都生成瀑布,于是全局结果出现不自然重复。右侧通过加入区域约束尝试缓解,但这也说明 MultiDiffusion 的控制能力不是魔法,它仍要站在参考模型先验之上。
从可复现性看,这篇论文相对友好:方法不要求重新训练基础模型,依赖公开 Stable Diffusion v2 实现,核心融合在许多任务里有闭式解。真正的工程成本主要在推理时多次调用参考模型:每个时间步需要对多个 crop 或多个区域进行模型前向。作者在附录中说明,panorama 中 crop 可以 batch 并行,但总调用量大致与时间步数 T T T 和 crop 数 n n n 成正比,再除以 batch size b b b。
这意味着它的产品化瓶颈会集中在推理成本、显存、延迟和交互体验上。对于离线创作工具,这个成本可能可以接受;对于实时交互编辑,需要进一步做缓存、调度、采样步压缩、模型蒸馏或局部重绘优化。
论文最后还提出一个更一般的扩展方向:
Ψ ( J t ∣ z ) = arg min J ∈ J L F T D ( J ∣ J t , z ) + L 0 ( J , J t , z ) s.t. J ∈ C ( J t , z ) \Psi(J_t|z)= \arg\min_{J\in\mathcal{J}} \mathcal{L}_{\mathrm{FTD}}(J|J_t,z)+\mathcal{L}_0(J,J_t,z) \quad \text{s.t.}\quad J\in\mathcal{C}(J_t,z) Ψ(Jt∣z)=argJ∈JminLFTD(J∣Jt,z)+L0(J,Jt,z)s.t.J∈C(Jt,z)
这里 L 0 \mathcal{L}_0 L0 是额外代价函数, C \mathcal{C} C 是硬约束集合。Rocky 认为,这个公式其实把 MultiDiffusion 推向了更大的方向:把基础扩散模型纳入一个可组合优化系统,未来可以继续接入深度估计、边缘约束、布局约束、风格一致性、身份一致性、多视角一致性,甚至视频时序一致性。
附录图进一步补充了定性证据。

图 10 展示更多 panorama 对比。对于这种视觉任务,单张 Figure 往往不足以证明稳定性,附录样例有助于观察方法是否只是 cherry-pick。MultiDiffusion 的主要优势仍然集中在减少接缝、减少重复和维持远距离一致性。

图 11 展示同一空间布局与 prompt 下的多样输出。这里体现的是扩散模型天然的采样多样性与 MultiDiffusion 空间控制之间的结合:不是把布局约束压成唯一结果,而是在约束下保留生成多样性。

图 12 左侧展示竖向 panorama,右侧展示粗区域与 tight region 组合使用。它说明 MultiDiffusion 的抽象不仅限于单一控制信号,而是可以把不同形态的空间约束一起放进同一个融合框架。

图 13 与 Table 2 对应,展示 COCO 验证集样例。定量指标告诉我们平均趋势,图像样例则帮助观察失败和成功的形态:BLD、SI 更容易出现对象位置不稳定或场景组织割裂,MultiDiffusion 在空间对齐上更稳,但仍不等于真实图像级别的完美重建。

图 14 进一步补充与 Make-A-Scene、SpaText、BLD 的比较。需要注意的是,论文不能直接运行未公开模型,因此比较主要基于已有样例。Rocky 的判断是:这类定性比较可以说明方法潜力,但商业落地还需要在统一数据、统一算力预算、统一模型版本下做更系统的复现。
如果继续研究/落地,应该关注什么
第一,推理时控制会越来越像“生成系统的调度层”。MultiDiffusion 是 2023 年的工作,但它提醒我们一个长期趋势:当基础模型越来越强,很多创新会从“训练一个新模型”转向“如何在推理时调用、约束、组合和校正模型”。这条线后来在 ControlNet、T2I-Adapter、IP-Adapter、区域控制、工作流编排、多条件生成中都能看到不同形态的延续。
第二,局部一致性不等于全局理解。MultiDiffusion 能用 overlap 和 least squares 改善 seam、区域对齐和局部协调,但它没有真正解决高层语义规划问题。例如复杂人物关系、物理结构、长距离因果关系、视频时间一致性,不能只靠像素级加权平均解决。未来更强的方向可能是把 MultiDiffusion 这种路径融合,与场景图、3D/世界模型先验、视觉语言模型反馈、可微渲染或规划器结合。
第三,产品价值不在算法名字,而在控制成本下降。用户不关心 FTD loss,也不关心 Ψ \Psi Ψ 的闭式解。用户关心的是:我能不能用很低成本表达布局,系统能不能稳定地产出符合我意图的结果,失败了能不能可编辑地修正。MultiDiffusion 有价值,是因为它让粗控制、区域控制、比例控制变得更接近可用工作流。
第四,商业闭环要看延迟和可控失败。一个创作工具如果每次生成都要很久,或者失败不可预测,就很难进入高频生产。MultiDiffusion 的推理成本天然高于单次 Stable Diffusion,因为它在每个时间步处理多个局部路径。落地时需要关注并行 batch、低步数 sampler、局部更新、结果缓存和可视化交互。
第五,最值得继续研究的是“统一约束语言”。MultiDiffusion 的强处在于把不同应用抽象成 F i F_i Fi、 λ i \lambda_i λi、 W i W_i Wi 与 FTD loss。未来如果能把用户意图、空间关系、风格约束、参考图约束、品牌规范都转成统一可组合的约束语言,AIGC 工具就会从 prompt 工具变成真正的创作系统。
术语与概念速查
| 术语 | 含义 | 在本文中的作用 |
|---|---|---|
| Diffusion path | 从噪声到干净图像的一系列去噪状态 | MultiDiffusion 要融合的基本对象 |
| Reference model Φ \Phi Φ | 已训练好的扩散模型 | 不做训练或微调,只提供局部去噪方向 |
| MultiDiffuser Ψ \Psi Ψ | 新定义的全局生成过程 | 在目标空间里融合多个局部扩散方向 |
| F i F_i Fi | 从目标图像到参考图像的映射 | 例如取 crop、选择区域或构造局部输入 |
| λ i \lambda_i λi | 从全局条件到局部条件的映射 | 例如把多区域 prompt 拆成每个区域的 prompt |
| FTD loss | Follow-the-Diffusion loss | 让全局更新尽量贴近所有局部扩散建议 |
| Bootstrapping | 区域控制中的早期布局强化机制 | 让 tight mask 在扩散早期更强地约束生成 |
| BLD | Blended Latent Diffusion | 论文中的基线之一 |
| SI | Stable Inpainting | 论文中的基线之一 |
| IoU | Intersection over Union | 评估生成对象区域与目标 mask 的重合程度 |
拓展思考:值得继续扩展研究与思考的创新点
MultiDiffusion 的跨周期价值在于,它把“模型能力”与“系统控制”拆开了。基础模型负责提供强生成先验,外层优化负责组织多路径一致性。这种拆分非常像今天 AI 应用里的一个底层规律:基础模型会不断变强,但用户价值往往来自模型外部的约束、工作流、状态管理、反馈闭环和系统编排。
Rocky 认为,这篇论文最值得带走的不是某个 panorama 指标,而是一个工程哲学:当一个模型已经足够强,不要总是第一反应去训练另一个模型;先问能不能在推理时把它的能力重新组织。
这对研究者意味着,要多关注“推理时优化”“多条件一致性”“约束表达”“采样过程控制”。这对产品团队意味着,不要把 AIGC 工具做成只有 prompt 输入和随机输出的玩具,而要把用户意图拆成可编辑的空间、对象、风格、比例和约束,并让系统能够稳定地执行这些约束。对创业者和投资人而言,真正有长期价值的不是又包了一层模型 API 的界面,而是能不能把底层模型能力变成用户可反复使用、可迭代修改、可交付结果的生产系统。
MultiDiffusion 不是终点。它解决的是 2D 图像里一类很重要的推理时控制问题。更大的问题还在后面:视频里的时间一致性,3D 里的多视角一致性,Agent 工作流里的任务一致性,企业内容生产里的品牌一致性。
但它给出了一个清晰方向:生成模型的下一层竞争,不只是生成质量,而是控制质量;不只是单次出图,而是约束下的稳定创作。
推荐阅读
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
3. 深入浅出完整解析FLUX.2、Seedream(即梦)、Z-image、GLM-Image核心基础知识
https://zhuanlan.zhihu.com/p/1975174691049189562
4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
5. 深入浅出完整解析DeepSeek系列核心基础知识
6、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识
7、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识
8、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
9、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:深入浅出完整解析Stable Diffusion(SD)核心基础知识
10、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:深入浅出完整解析ControlNet核心基础知识
11、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
12、深入浅出完整解析AIGC时代Transformer核心基础知识
在AIGC时代中,Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向,成为AI技术架构大一统与多模态整合的关键核心基座,大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析:
Transformer文章地址:深入浅出完整解析AIGC时代Transformer核心基础知识
13、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:手把手教你成为AIGC算法工程师,斩获AIGC算法offer!
14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:深入浅出完整解析主流AI绘画框架(ComfyUI、Stable Diffusion WebUI、Fooocus)核心基础知识
16、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
17. AI算法工程师的《三年面试五年模拟》求职秘籍
18. AIGC产业的深度思考与分析
2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。
Rocky也认为,AIGC及其生态,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作、生活、学习以及交流方式,各行各业都将被重新定义,过程会非常有趣。
那么,在此基础上,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解:
1667

被折叠的 条评论
为什么被折叠?



