1. 从“猜下一个字”到“填空大师”:LLaDA如何颠覆你的认知
如果你用过ChatGPT或者文心一言,肯定对它们那种“一个字一个字往外蹦”的生成方式不陌生。你问它“今天天气怎么样?”,它得先想“今”,再想“天”,然后“天”,最后“气”…… 这就是所谓的自回归模型,也是过去几年几乎所有大语言模型的“标准答案”。它就像个小心翼翼的预言家,必须按顺序、从左到右地“猜”出每一个词。
但最近,一个叫LLaDA的新模型横空出世,它干了一件挺“叛逆”的事:它不猜下一个字了,它改玩“完形填空”了。想象一下,你拿到一张被涂掉一半的试卷,你的任务不是顺着往下写,而是根据上下文,把那些被涂掉的空一次性、或者迭代地给“填”回去。这就是LLaDA的核心思路——用扩散模型的思维来搞语言生成。
我刚开始接触这个想法时,第一反应是:这能行吗?语言这么讲究顺序和逻辑,玩“填空”会不会生成一堆前言不搭后语的废话?但LLaDA的论文结果让我大吃一惊。一个从头训练、参数规模达到80亿的扩散语言模型,在MMLU、GSM8K这些硬核基准测试上,居然能和同规模的明星自回归模型(比如LLaMA3 8B)打得有来有回,甚至在反向推理任务上还能反超GPT-4o。这感觉就像,大家一直以为跑马拉松必须用两条腿,结果突然有人骑着自行车跟你速度差不多,还告诉你他倒着骑也能比你快。
所以,LLaDA到底是个啥?简单说,它是一个大型语言掩码扩散模型。它不再执着于“下一个词是什么”,而是学习“在给定上下文和一堆[MASK]的情况下,被遮住的原文应该是什么”。这种范式的转换,不仅仅是技术路线的不同,它可能意味着我们对语言模型“智能”来源的理解需要更新。它挑战了一个根深蒂固的观念:是不是只有自回归这一条路,才能通向强大的语言智能?LLaDA用实际表现给出了一个响亮的“不一定”。对于咱们开发者、研究者,甚至是好奇的爱好者来说,理解LLaDA,就是理解语言模型未来可能的一条重要分支。
2. 拆解LLaDA:掩码扩散模型是如何工作的?
要搞懂LLaDA,咱们得先放下对Transformer“因果注意力”的执念。传统的自回归模型,在预测时只能看前面的词,不能看后面的,这叫“因果掩码”。但LLaDA用的Transformer,把这个限制给拿掉了,变成了一个双向的掩码预测器。它能同时看到整个句子的所有信息,无论前后。这就像是做阅读理解时,你可以把整篇文章先通读一遍,再回来填空,而不是只允许你看上一句就猜下一句。
2.1 核心:前向“破坏”与反向“修复”
LLaDA的整个生命周期,可以形象地理解为一个“破坏-修复”的循环游戏。
前向过程(破坏):给你一段干净的文本,比如“人工智能正在改变世界”。然后,我随机决定一个“破坏程度”t(比如t=0.6,意思是破坏60%的词)。接着,我就像玩抽奖一样,对这句话里的每个词,都有60%的概率把它替换成特殊的[MASK]标记。于是,原句可能就变成了“人工[MASK]正在[MASK]世界”。这个过程是随机的

3306

被折叠的 条评论
为什么被折叠?



