涌现-可能是学习到我们当前未感知的信息维度，而不是纯泛化

原创已于 2026-06-21 19:57:48 修改 · 121 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #AI编程 #机器学习

于 2026-06-21 19:43:08 首次发布

AI跟进与分享专栏收录该内容

1 篇文章

订阅专栏

文章目录

在大模型这条线上，有一个词几乎成了行业的"图腾"——涌现。但如果你把时间拨回2020年之前，整个深度学习圈没人正式提过这个词。它的发现、命名、再到被质疑，本身就是一段很有戏剧性的技术史。

为了写这文章，我又专门研究了下。我记得最开始听到这个词是在饭局上，当时还是客户提出来的，惭愧。不过，到了今天，还是没有定论。下图简单罗列了发展史。

在这里插入图片描述

2020年之前：我们以为自己已经懂"规模"了

其实，在早些年，"模型越大越好"这个直觉圈内人一直有，但2020年之前的认知很明确：性能随规模提升是平滑、可预测、渐进的。加宽加深网络，准确率涨几个点，边际递减，如此而已。

2020年初 OpenAI 发的《Scaling Laws》证明了模型损失和参数量、数据量、算力之间是幂律关系。但 Scaling Law 描述的是一条连续的、平滑的下降曲线，不预言任何"突变"。所以大家心里想的还是"稳步变好"，没人期待"突然开窍"。

GPT-3：2020年那记闷棍

然后 GPT-3 来了，1750亿参数，直接把所有人打懵。

让人震惊的不是刷高了几个点，而是它展示出了一种此前小模型完全不具备的东西：你给它几个例子，或者干脆只给指令，它就能做翻译、算术、写代码，而这些任务它从来没被专门训练过。

按老规矩，做翻译就训翻译模型，做情感分析就训情感模型，任务互不相通。GPT-3 却用"预测下一个TOKEN"一个目标，把所有能力都"顺带"长出来了。但这会儿大家只是震惊，还没人给它正式命名。

2022年：终于有人起了个名字

2022年8月，Jason Wei 等人在《Emergent Abilities of Large Language Models》中给了涌现一个清晰定义：在小规模模型中不存在、但在大规模模型中突然出现的能力。

关键词是**“突然”**——有些能力在小模型上表现平平、接近零，跨过某个阈值后陡然跃升，类似物理学中的相变。

在这里插入图片描述

核心拆解：为什么会涌现、什么规模涌现、契机是什么

一、为什么会涌现——三大支柱协同

我们虽然到目前为止没有掌握到本质原因，但我们可以从以往的过程来了解为什么会出现。
涌现不是单一因素造成的，而是规模、结构、数据三大支柱协同作用的结果。

在这里插入图片描述

规模：过参数化打破容量瓶颈。 传统深度学习里参数量和任务复杂度匹配，多了反而过拟合。但大模型走的是过参数化路线——参数量远超单一任务所需（也就是像我们所说的欠拟合），多出来的容量用来捕捉更深层、更抽象的模式。"双重下降"现象证明：参数量超过传统"最优区间"后继续增长，性能会再次提升，因为更大的假设空间能找到更泛化的解。
结构：Transformer 的自注意力机制。 它让序列中任意两个位置的词直接"看到"彼此，捕捉长距离依赖，不再像 RNN 逐词传递。更关键的是自注意力可并行——RNN 的顺序计算模式根本撑不住千亿参数的训练规模。没有 Transformer，规模支柱立不起来。
数据：自监督预训练逼出了"理解"。 “预测下一个词"这个简单目标，成了涌现的深层推手。要把每一个词都预测对，模型不能只靠浅层统计，被迫去理解语言的内在结构甚至世界知识。小模型做这件事是在"统计接龙”，大模型因为参数和数据够多，被迫从"统计接龙"升级成"理解规律"——这个量变到质变的切换，就是涌现的内在逻辑。

二、什么规模会出现涌现——阈值地图

涌现分能力、分门槛、阶梯式解锁。根据 Google Research 的框架，真正的涌现要满足：小模型完全不具备、在某个规模区间突然出现、出现后持续存在。(来源：CSDN)

参数规模	涌现的能力 / 对应参照
<10亿（1B）	基本无涌现，接近随机猜测
10B+	少样本上下文学习开始出现
50B+	思维链推理出现，"Let’s think step by step"时能做多步推理
100B+	复杂逻辑与理解真正具备，MMLU/BBH/MATH上质的飞跃
约 100万亿（100T）	【参照】人脑突触数量，代表了人类极其复杂的通用智能与认知底座

但这个阈值不是绝对硬线——有研究指出，涌现是"参数规模、数据量、训练充分程度、任务类型"四个变量的某个未知函数，不能简单归结为"参数到了就行"。(来源：知乎)

三、涌现的契机——四个齿轮在2020年首次咬合

为什么是2020年？因为四件事在同一时期凑齐了：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Transformer 架构成熟：2017年提出，到2020年经 BERT、GPT-2 验证，路线确定，支撑大规模并行训练。
自监督预训练范式确立：GPT-3 用3000亿 token 训练，把整个互联网公开文本吞了一遍，这个数据量之前不可想象。
算力突破临界点：A100 等硬件成熟、分布式训练完善，千亿参数训练第一次工程上可行。
过参数化被接受：传统经验里参数多等于过拟合，是 GPT-3 的结果才让行业真正接受了"参数多到夸张反而更好"。

缺任何一个，涌现都出不来。这也是为什么2020年之前没人预见到它——不是不够聪明，而是这四个条件从未同时满足过。

2023年：有人唱反调了

2023年，斯坦福 Schaeffer 等人发了《大型语言模型的涌现能力是海市蜃楼吗？》，拿了 NeurIPS 2023 优秀论文奖。他们的论点：涌现的"突然性"可能只是度量方式的假象。 用"非黑即白"指标看是突变，换连续型指标看就是平滑渐进——就像学生从50分涨到90分，用"及格/不及格"看是"突然及格"，用实际分数看一直在进步。

2024年以来争论仍在继续。达姆施塔特工大和巴斯大学发现很多"涌现能力"在零样本下表现平平，更像上下文学习的副产品；国防科技大学联合中科院用认知反射测试检验，结论也与乐观估计有出入。所以学界共识比想象中审慎：能力随规模提升是真实的，但"突变式涌现"是否是独立质变，至今仍有争议。

2026年：万亿参数已成日常，但"大"不是唯一叙事

DeepSeek V4 Pro：2026年4月发布，总参数 1.6T，MoE 稀疏架构每次只激活 49B。百万 token 上下文，召回率从45%飙到97%，LiveCodeBench 93.5% 超越 Claude Opus 4.6，MIT 开源，API 输入仅1元/百万 token。
Claude Fable 5：2026年6月9日发布，据传总参数不少于10T。单日完成5000万行 Ruby 迁移，Hebbia Finance Benchmark 最高分，SWE-bench Pro 达80.3%。

放一起看：DeepSeek V4 Pro 说明"大"不等于"全开"，MoE 让你只开该开的部分；Claude Fable 5 说明竞争焦点已从"参数多少"转向"安全对齐+极致能力"的双轨。

回到那个核心问题

涌现到底是真的质变，还是度量幻觉？到今天仍没有让所有人闭嘴的答案。但"涌现怎么来的"已经比较清楚：过参数化提供容量，Transformer 提供结构，自监督预训练提供学习方式，海量数据提供素材，算力提供工程可行性——五样东西在2020年第一次凑齐，GPT-3 给了所有人一记闷棍。

从2020年的意外，到2022年的命名，到2023年的质疑反转，到2024年至今的持续修正，再到2026年 DeepSeek V4 Pro 和 Claude Fable 5 各走各路——短短几年，这条线本身就是大模型领域发展速度的缩影。涌现之所以让人意外，恰恰是因为它暗示：当规模跨过某个门槛，量变的累积可能触发了某种我们还没完全理解的质变机制。

这个机制到底是什么？是真本事还是度量把戏？这正是当前研究最前沿的争论点，也是大模型区别于传统神经网络最"玄"的地方。
照我粗浅的理解，可能对于模型本身来说并不是突变，而是学习到我们当前未感知到的信息维度，呈现出来能力的阶跃罢了。比如2阶视角下的3阶现象。