文章目录
在大模型这条线上,有一个词几乎成了行业的"图腾"——涌现。但如果你把时间拨回2020年之前,整个深度学习圈没人正式提过这个词。它的发现、命名、再到被质疑,本身就是一段很有戏剧性的技术史。
为了写这文章,我又专门研究了下。我记得最开始听到这个词是在饭局上,当时还是客户提出来的,惭愧。不过,到了今天,还是没有定论。下图简单罗列了发展史。

2020年之前:我们以为自己已经懂"规模"了
其实,在早些年,"模型越大越好"这个直觉圈内人一直有,但2020年之前的认知很明确:性能随规模提升是平滑、可预测、渐进的。加宽加深网络,准确率涨几个点,边际递减,如此而已。
2020年初 OpenAI 发的《Scaling Laws》证明了模型损失和参数量、数据量、算力之间是幂律关系。但 Scaling Law 描述的是一条连续的、平滑的下降曲线,不预言任何"突变"。所以大家心里想的还是"稳步变好",没人期待"突然开窍"。
GPT-3:2020年那记闷棍
然后 GPT-3 来了,1750亿参数,直接把所有人打懵。
让人震惊的不是刷高了几个点,而是它展示出了一种此前小模型完全不具备的东西:你给它几个例子,或者干脆只给指令,它就能做翻译、算术、写代码,而这些任务它从来没被专门训练过。
按老规矩,做翻译就训翻译模型,做情感分析就训情感模型,任务互不相通。GPT-3 却用"预测下一个TOKEN"一个目标,把所有能力都"顺带"长出来了。但这会儿大家只是震惊,还没人给它正式命名。
2022年:终于有人起了个名字
2022年8月,Jason Wei 等人在《Emergent Abilities of Large Language Models》中给了涌现一个清晰定义:在小规模模型中不存在、但在大规模模型中突然出现的能力。
关键词是**“突然”**——有些能力在小模型上表现平平、接近零,跨过某个阈值后陡然跃升,类似物理学中的相变。

核心拆解:为什么会涌现、什么规模涌现、契机是什么
一、为什么会涌现——三大支柱协同
我们虽然到目前为止没有掌握到本质原因,但我们可以从以往的过程来了解为什么会出现。
涌现不是单一因素造成的,而是规模、结构、数据三大支柱协同作用的结果。

- 规模:过参数化打破容量瓶颈。 传统深度学习里参数量和任务复杂度匹配,多了反而过拟合。但大模型走的是过参数化路线——参数量远超单一任务所需(也就是像我们所说的欠拟合),多出来的容量用来捕捉更深层、更抽象的模式。"双重下降"现象证明:参数量超过传统"最优区间"后继续增长,性能会再次提升,因为更大的假设空间能找到更泛化的解。
- 结构:Transformer 的自注意力机制。 它让序列中任意两个位置的词直接"看到"彼此,捕捉长距离依赖,不再像 RNN 逐词传递。更关键的是自注意力可并行——RNN 的顺序计算模式根本撑不住千亿参数的训练规模。没有 Transformer,规模支柱立不起来。
- 数据:自监督预训练逼出了"理解"。 “预测下一个词"这个简单目标,成了涌现的深层推手。要把每一个词都预测对,模型不能只靠浅层统计,被迫去理解语言的内在结构甚至世界知识。小模型做这件事是在"统计接龙”,大模型因为参数和数据够多,被迫从"统计接龙"升级成"理解规律"——这个量变到质变的切换,就是涌现的内在逻辑。
二、什么规模会出现涌现——阈值地图
涌现分能力、分门槛、阶梯式解锁。根据 Google Research 的框架,真正的涌现要满足:小模型完全不具备、在某个规模区间突然出现、出现后持续存在。(来源:CSDN)
| 参数规模 | 涌现的能力 / 对应参照 |
|---|---|
| <10亿(1B) | 基本无涌现,接近随机猜测 |
| 10B+ | 少样本上下文学习开始出现 |
| 50B+ | 思维链推理出现,"Let’s think step by step"时能做多步推理 |
| 100B+ | 复杂逻辑与理解真正具备,MMLU/BBH/MATH上质的飞跃 |
| 约 100万亿(100T) | 【参照】人脑突触数量,代表了人类极其复杂的通用智能与认知底座 |
但这个阈值不是绝对硬线——有研究指出,涌现是"参数规模、数据量、训练充分程度、任务类型"四个变量的某个未知函数,不能简单归结为"参数到了就行"。(来源:知乎)
三、涌现的契机——四个齿轮在2020年首次咬合
为什么是2020年?因为四件事在同一时期凑齐了:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
- Transformer 架构成熟:2017年提出,到2020年经 BERT、GPT-2 验证,路线确定,支撑大规模并行训练。
- 自监督预训练范式确立:GPT-3 用3000亿 token 训练,把整个互联网公开文本吞了一遍,这个数据量之前不可想象。
- 算力突破临界点:A100 等硬件成熟、分布式训练完善,千亿参数训练第一次工程上可行。
- 过参数化被接受:传统经验里参数多等于过拟合,是 GPT-3 的结果才让行业真正接受了"参数多到夸张反而更好"。
缺任何一个,涌现都出不来。这也是为什么2020年之前没人预见到它——不是不够聪明,而是这四个条件从未同时满足过。
2023年:有人唱反调了
2023年,斯坦福 Schaeffer 等人发了《大型语言模型的涌现能力是海市蜃楼吗?》,拿了 NeurIPS 2023 优秀论文奖。他们的论点:涌现的"突然性"可能只是度量方式的假象。 用"非黑即白"指标看是突变,换连续型指标看就是平滑渐进——就像学生从50分涨到90分,用"及格/不及格"看是"突然及格",用实际分数看一直在进步。
2024年以来争论仍在继续。达姆施塔特工大和巴斯大学发现很多"涌现能力"在零样本下表现平平,更像上下文学习的副产品;国防科技大学联合中科院用认知反射测试检验,结论也与乐观估计有出入。所以学界共识比想象中审慎:能力随规模提升是真实的,但"突变式涌现"是否是独立质变,至今仍有争议。
2026年:万亿参数已成日常,但"大"不是唯一叙事
- DeepSeek V4 Pro:2026年4月发布,总参数 1.6T,MoE 稀疏架构每次只激活 49B。百万 token 上下文,召回率从45%飙到97%,LiveCodeBench 93.5% 超越 Claude Opus 4.6,MIT 开源,API 输入仅1元/百万 token。
- Claude Fable 5:2026年6月9日发布,据传总参数不少于10T。单日完成5000万行 Ruby 迁移,Hebbia Finance Benchmark 最高分,SWE-bench Pro 达80.3%。
放一起看:DeepSeek V4 Pro 说明"大"不等于"全开",MoE 让你只开该开的部分;Claude Fable 5 说明竞争焦点已从"参数多少"转向"安全对齐+极致能力"的双轨。
回到那个核心问题
涌现到底是真的质变,还是度量幻觉?到今天仍没有让所有人闭嘴的答案。但"涌现怎么来的"已经比较清楚:过参数化提供容量,Transformer 提供结构,自监督预训练提供学习方式,海量数据提供素材,算力提供工程可行性——五样东西在2020年第一次凑齐,GPT-3 给了所有人一记闷棍。
从2020年的意外,到2022年的命名,到2023年的质疑反转,到2024年至今的持续修正,再到2026年 DeepSeek V4 Pro 和 Claude Fable 5 各走各路——短短几年,这条线本身就是大模型领域发展速度的缩影。涌现之所以让人意外,恰恰是因为它暗示:当规模跨过某个门槛,量变的累积可能触发了某种我们还没完全理解的质变机制。
这个机制到底是什么?是真本事还是度量把戏?这正是当前研究最前沿的争论点,也是大模型区别于传统神经网络最"玄"的地方。
照我粗浅的理解,可能对于模型本身来说并不是突变,而是学习到我们当前未感知到的信息维度,呈现出来能力的阶跃罢了。 比如2阶视角下的3阶现象。
1812

被折叠的 条评论
为什么被折叠?



