大模型发展的历史脉络：从RNN、Transformer到多模态AI

原创

已于 2025-02-26 20:08:08 修改 · 2.9k 阅读

标签

#人工智能 #rnn #transformer

于 2025-02-26 20:04:45 首次发布

好的，我将整理大模型（特别是Transformer之后）的发展脉络，涵盖计算机视觉、自然语言处理和多模态等领域。内容将包括：

关键技术路线的演变，如从RNN到LSTM再到Transformer、GPT系列等
重要的模型架构与技术突破
关键人物及其贡献
重要的里程碑事件
影响深远的关键论文，包括概念性突破和工程实现

完成后，我会与你分享详细的整理报告。

大模型发展的历史脉络：从RNN、Transformer到多模态AI

引言

自Transformer架构问世以来，人工智能领域的大模型进入了飞速发展的新阶段。为了理解这场革命，我们需要回顾Transformer之前的技术基础（如早期的循环神经网络 RNN 和 长短期记忆网络 LSTM），以及Transformer之后在自然语言处理（NLP）、计算机视觉（CV）和多模态领域的一系列关键模型与事件。本文将按时间脉络梳理这一发展历程，重点关注技术路线演变、重要模型架构与技术突破、关键人物贡献、里程碑事件以及影响深远的代表性论文，并分析这些进展对AI发展的影响。

早期：RNN 与 LSTM 的兴起 (1980s–2016)

循环神经网络（RNN）在20世纪80年代末被提出，用于处理序列数据。Jeff Elman 在1990年的工作引入了简单的“Elman网络”RNN，用隐含层的循环连接来记忆序列信息 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。然而，基本RNN难以捕获长距离的依赖关系，因为梯度会在长序列反向传播时消失或爆炸。为了解决这一问题，1997年 Sepp Hochreiter 和 Jürgen Schmidhuber 提出了长短期记忆网络（LSTM） (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。LSTM通过引入记忆单元和门控机制（包括输入门、遗忘门和输出门）来控制信息的保存和遗忘，从而能够记住更长时间跨度的信息 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。凭借克服长期依赖的问题，LSTM 在语音识别、机器翻译等序列预测任务中取得了当时最好的效果 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

在2010年代中期之前，RNN（尤其是LSTM和稍后的门控循环单元GRU）是序列建模的主流方法。例如，2014年Sutskever等人提出了序列到序列（Seq2Seq）学习框架，将一个LSTM编码器和一个LSTM解码器结合，实现了从一个序列（如源语言句子）映射到另一个序列（如目标语言句子） (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。Seq2Seq模型首次成功应用于英法机器翻译，证明了端到端训练神经网络完成翻译的可行性 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。同年，Cho等人提出了GRU模型，简化了LSTM的结构并取得类似性能，使训练长序列模型更加高效 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。

注意力机制也在这一时期萌芽。Bahdanau等人在2014年底（论文发表于2015年）在Seq2Seq框架上引入了**“加性”注意力机制** (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。该机制让解码器在生成目标序列的每个词时，都能动态关注源序列中相关的部分，而不再受限于固定长度的向量表示。这一改进显著提升了长句翻译的效果，克服了Seq2Seq在处理长句时性能急剧下降的问题 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。随后Luong等人在2015年进一步区分了全局注意力和局部注意力并进行了对比，提出了更高效的局部注意力变体来加速翻译 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI) (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)。注意力机制的引入为后来的Transformer奠定了思想基础：模型可以学会“在哪儿看”和“看多少”。

在计算机视觉领域，虽然RNN/LSTM不直接应用于图像，卷积神经网络（CNN）的发展与上述进程几乎并行。Yann LeCun在90年代开发了卷积网络LeNet用于手写字符识别。真正令深度学习在视觉上引爆的是2012年的AlexNet：Hinton团队的Alex Krizhevsky等人在ImageNet图像识别竞赛中以巨大优势夺冠，比当时第二名的错误率低了近10个百分点 (AlexNet and ImageNet: The Birth of Deep Learning | Pinecone)。这标志着深度卷积网络开始主导视觉领域。随后VGG网路（2014）加深了层数，ResNet（2015）引入残差连接解决了网络加深时的退化问题，将CNN的深度推进到152层。可以说，到2016年前后，NLP领域依靠RNN/LSTM+注意力取得突破（如Google在2016年用LSTM+注意力构建了神经网络翻译系统，9个月内性能超越了研发十年的统计机器翻译系统 (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards AI)），而CV领域依靠深CNN大幅提升了图像识别性能。这些进展共同铺垫了Transformer的诞生条件：一方面是对长程依赖建模和并行计算更高效方法的需求，另一方面是大数据集和强大算力（GPU）的普及为更大模型训练提供了可能 (History of generative AI) (AlexNet and ImageNet: The Birth of Deep Learning | Pinecone)。

Transformer 的革命 (2017)

2017年可以说是**“Transformer元年”。来自谷歌Brain的Vaswani等人在论文《Attention is All You Need》中提出了革新的Transformer架构** (Transformers in AI: The Attention Timeline, From the 1990s to Present | Towards A

最低0.47元/天解锁文章