【LLMs篇】LLaDA：突破自回归范式，扩散模型如何重塑语言生成新格局

原创

于 2026-03-11 01:23:08 发布 · 430 阅读

文章标签：

1. 从“猜下一个字”到“填空大师”：LLaDA如何颠覆你的认知

如果你用过ChatGPT或者文心一言，肯定对它们那种“一个字一个字往外蹦”的生成方式不陌生。你问它“今天天气怎么样？”，它得先想“今”，再想“天”，然后“天”，最后“气”…… 这就是所谓的自回归模型，也是过去几年几乎所有大语言模型的“标准答案”。它就像个小心翼翼的预言家，必须按顺序、从左到右地“猜”出每一个词。

但最近，一个叫LLaDA的新模型横空出世，它干了一件挺“叛逆”的事：它不猜下一个字了，它改玩“完形填空”了。想象一下，你拿到一张被涂掉一半的试卷，你的任务不是顺着往下写，而是根据上下文，把那些被涂掉的空一次性、或者迭代地给“填”回去。这就是LLaDA的核心思路——用扩散模型的思维来搞语言生成。

我刚开始接触这个想法时，第一反应是：这能行吗？语言这么讲究顺序和逻辑，玩“填空”会不会生成一堆前言不搭后语的废话？但LLaDA的论文结果让我大吃一惊。一个从头训练、参数规模达到80亿的扩散语言模型，在MMLU、GSM8K这些硬核基准测试上，居然能和同规模的明星自回归模型（比如LLaMA3 8B）打得有来有回，甚至在反向推理任务上还能反超GPT-4o。这感觉就像，大家一直以为跑马拉松必须用两条腿，结果突然有人骑着自行车跟你速度差不多，还告诉你他倒着骑也能比你快。

所以，LLaDA到底是个啥？简单说，它是一个大型语言掩码扩散模型。它不再执着于“下一个词是什么”，而是学习“在给定上下文和一堆[MASK]的情况下，被遮住的原文应该是什么”。这种范式的转换，不仅仅是技术路线的不同，它可能意味着我们对语言模型“智能”来源的理解需要更新。它挑战了一个根深蒂固的观念：是不是只有自回归这一条路，才能通向强大的语言智能？LLaDA用实际表现给出了一个响亮的“不一定”。对于咱们开发者、研究者，甚至是好奇的爱好者来说，理解LLaDA，就是理解语言模型未来可能的一条重要分支。

2. 拆解LLaDA：掩码扩散模型是如何工作的？

要搞懂LLaDA，咱们得先放下对Transformer“因果注意力”的执念。传统的自回归模型，在预测时只能看前面的词，不能看后面的，这叫“因果掩码”。但LLaDA用的Transformer，把这个限制给拿掉了，变成了一个双向的掩码预测器。它能同时看到整个句子的所有信息，无论前后。这就像是做阅读理解时，你可以把整篇文章先通读一遍，再回来填空，而不是只允许你看上一句就猜下一句。

2.1 核心：前向“破坏”与反向“修复”

LLaDA的整个生命周期，可以形象地理解为一个“破坏-修复”的循环游戏。

前向过程（破坏）：给你一段干净的文本，比如“人工智能正在改变世界”。然后，我随机决定一个“破坏程度”t（比如t=0.6，意思是破坏60%的词）。接着，我就像玩抽奖一样，对这句话里的每个词，都有60%的概率把它替换成特殊的[MASK]标记。于是，原句可能就变成了“人工[MASK]正在[MASK]世界”。这个过程是随机的

最低0.47元/天解锁文章