二者的共同点只有一个:都用“加噪-去噪”这个核心范式。
区别如下:
一、核心区别:连续 vs 离散
图像由像素组成,像素就是一组表示颜色的数字(如RGB)。因为是连续数字,可以平滑的改变:如果对一个黑色像素加一点点噪声,它将变成深灰色,仍然是一个有效的颜色。这样标准扩散(特别是加高斯噪声)的数学非常容易应用。
但是语言不行。单词是离散的,你无法在“Cat”和“Dog”之间平滑滑动。不存在90%是Cat、10%是Dog的词。
二、加噪的方式完全不同
图像diffusion:往像素值上加高斯噪声。一张猫的照片,加一点噪声变得模糊,加更多变成雪花点,最后变成纯随机噪声。这是连续过程。
Diffusion LLM:没法加高斯噪声(半个cat半个dog没意义),所以用了完全不同的方法。这种文本扩散方法不同于图像扩散模型,它使用mask token作为噪声,而不是高斯噪声。
具体来说,目前主流的diffusion llm分三种路线:
1)使用token嵌入上的连续扩散
2)把文本编码到压缩的语义潜在空间,在该空间应用扩散,然后再解码回文本
3)通过直接掩码token使用离散扩散(LLaDA、D3PM、SEDD)。这第三种范式目前在已报告的结果中表现最好。
也就是说,“加噪”在文本里变成了“逐渐把词替换成[MASK]”,去噪变成了逐渐把[MASK]还原成正确的词。
dLLM想解决的是什么痛点
dLLM不是为了用扩散做文本而做,而是为了突破自回归模型的根本限制。
AR模型严格从左到右生成,每次forward添加一个token。在AR解码中,模型自然地扩展前缀,而不是插入、删除或重写早期序列。扩散通过同时更新多个位置,可以更直接地支持灵活编辑,如插入、删除和跨度重写。dLLM可以同时修订多个token,并调整细化步数,使困难情况使用更多步骤,简单情况使用更少步骤。
726

被折叠的 条评论
为什么被折叠?



