Diffusion LLM vs 图像diffusion模型

最新推荐文章于 2026-06-15 09:31:10 发布

原创最新推荐文章于 2026-06-15 09:31:10 发布 · 118 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#llm

dllm 专栏收录该内容

1 篇文章

订阅专栏

二者的共同点只有一个：都用“加噪-去噪”这个核心范式。

区别如下：

一、核心区别：连续 vs 离散

图像由像素组成，像素就是一组表示颜色的数字（如RGB）。因为是连续数字，可以平滑的改变：如果对一个黑色像素加一点点噪声，它将变成深灰色，仍然是一个有效的颜色。这样标准扩散（特别是加高斯噪声）的数学非常容易应用。

但是语言不行。单词是离散的，你无法在“Cat”和“Dog”之间平滑滑动。不存在90%是Cat、10%是Dog的词。

二、加噪的方式完全不同

图像diffusion：往像素值上加高斯噪声。一张猫的照片，加一点噪声变得模糊，加更多变成雪花点，最后变成纯随机噪声。这是连续过程。

Diffusion LLM：没法加高斯噪声（半个cat半个dog没意义），所以用了完全不同的方法。这种文本扩散方法不同于图像扩散模型，它使用mask token作为噪声，而不是高斯噪声。

具体来说，目前主流的diffusion llm分三种路线：
1）使用token嵌入上的连续扩散
2）把文本编码到压缩的语义潜在空间，在该空间应用扩散，然后再解码回文本
3）通过直接掩码token使用离散扩散（LLaDA、D3PM、SEDD）。这第三种范式目前在已报告的结果中表现最好。

也就是说，“加噪”在文本里变成了“逐渐把词替换成[MASK]”，去噪变成了逐渐把[MASK]还原成正确的词。

dLLM想解决的是什么痛点

dLLM不是为了用扩散做文本而做，而是为了突破自回归模型的根本限制。

AR模型严格从左到右生成，每次forward添加一个token。在AR解码中，模型自然地扩展前缀，而不是插入、删除或重写早期序列。扩散通过同时更新多个位置，可以更直接地支持灵活编辑，如插入、删除和跨度重写。dLLM可以同时修订多个token，并调整细化步数，使困难情况使用更多步骤，简单情况使用更少步骤。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。