Diffusion LLM vs 图像diffusion模型

二者的共同点只有一个:都用“加噪-去噪”这个核心范式。

区别如下:

一、核心区别:连续 vs 离散

图像由像素组成,像素就是一组表示颜色的数字(如RGB)。因为是连续数字,可以平滑的改变:如果对一个黑色像素加一点点噪声,它将变成深灰色,仍然是一个有效的颜色。这样标准扩散(特别是加高斯噪声)的数学非常容易应用。

但是语言不行。单词是离散的,你无法在“Cat”和“Dog”之间平滑滑动。不存在90%是Cat、10%是Dog的词。

二、加噪的方式完全不同

图像diffusion:往像素值上加高斯噪声。一张猫的照片,加一点噪声变得模糊,加更多变成雪花点,最后变成纯随机噪声。这是连续过程。

Diffusion LLM:没法加高斯噪声(半个cat半个dog没意义),所以用了完全不同的方法。这种文本扩散方法不同于图像扩散模型,它使用mask token作为噪声,而不是高斯噪声。

具体来说,目前主流的diffusion llm分三种路线:
1)使用token嵌入上的连续扩散
2)把文本编码到压缩的语义潜在空间,在该空间应用扩散,然后再解码回文本
3)通过直接掩码token使用离散扩散(LLaDA、D3PM、SEDD)。这第三种范式目前在已报告的结果中表现最好。

也就是说,“加噪”在文本里变成了“逐渐把词替换成[MASK]”,去噪变成了逐渐把[MASK]还原成正确的词。

dLLM想解决的是什么痛点

dLLM不是为了用扩散做文本而做,而是为了突破自回归模型的根本限制。

AR模型严格从左到右生成,每次forward添加一个token。在AR解码中,模型自然地扩展前缀,而不是插入、删除或重写早期序列。扩散通过同时更新多个位置,可以更直接地支持灵活编辑,如插入、删除和跨度重写。dLLM可以同时修订多个token,并调整细化步数,使困难情况使用更多步骤,简单情况使用更少步骤。

于2024年4月-2025年9月期间,研究团队在贵州习水国家级自然保护区制定39条样线,涵盖灌木林、常绿阔叶林、针叶林、常绿落叶阔叶混交林、针阔混交林等不同植被类型,每条样线分春夏秋冬4个季节采集样品,用真菌采集软件记录经纬度、海拔、采集地点、时间、生境等信息,使用佳能相机(R6 mark Ⅱ)对大型真菌进行拍照,并采集标本,标本存放于贵州省生物研究所大型真菌标本馆(HGAMF)。 通过形态学初步鉴定,结合分子生物学最终鉴定,参考已]报道的中国毒蘑菇名录开展毒蘑菇的认定。 调查到保护区内有毒真菌7目25科64种,导致中毒的主要类型有急性肾衰竭型、神经精神型和胃肠炎型。最终形成贵州习水国家级自然保护区大型有毒真菌图片数据集,它由以下2个部分组成。 (1)附件1包含78张原始照片(.JPG),照片名字包括了大型有毒真菌的拉丁名和中文名,若无中文名的直接用拉丁名。 (2)附件2是一个压缩文件,包含了2张工作表,其中一张表是大型有毒真菌39条样线的信息,另一张表是大型有毒真菌的中毒类型。 照片采用佳能相机R6 mark Ⅱ拍摄,物种鉴定通过多种文献核实,并经两位以上专家鉴定确认。该数据集可为研究地及周边的普通人识别有毒大型真菌提供参考,通过及时的图片对比,能有效避免误采误食大型有毒真菌,同时为因误食大型真菌可能引发的身体损伤进行了总结,能为患者及时治疗提供参考。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值