🎯 架构分类
1️⃣ Encoder-Decoder架构
代表模型:T5、BART
特点:适合序列到序列任务
应用:翻译、摘要、问答
2️⃣ Decoder-Only架构
代表模型:GPT系列、LLaMA
特点:自回归生成
应用:文本生成、对话
3️⃣ Encoder-Only架构
代表模型:BERT、RoBERTa
特点:双向理解
应用:分类、NER、阅读理解
4️⃣ Prefix-Decoder架构
代表模型:GLM、U-PaLM
特点:编码器+部分解码器
应用:兼顾理解和生成
🤖 主流模型详解
GPT系列演进
模型
参数量
特点
发布时间
GPT-1
117M
无监督预训练
2018
GPT-2
1.5B
零样本能力
2019
GPT-3
175B
少样本学习
2020
GPT-4
~1.7T
多模态
2023
LLaMA系列
LLaMA 1:开源基础模型
LLaMA 2:商业友好许可
LLaMA 3:最强开源模型
中文大模型
Qwen:阿里巴巴开源
DeepSeek:深度求索
Kimi:月之暗面
ChatGLM:清华大学
📊 模型对比
模型
架构
参数量
上下文长度
特点
GPT-4
Decoder
~1.7T
128K
多模态、推理强
LLaMA-3
Decoder
70B
8K
开源、英文强
Qwen-72B
Decoder
72B
32K
中文优化
DeepSeek-67B
Decoder
67B
32K
数学推理
🎯 面试重点
不同架构的优缺点?
GPT和BERT的区别?
如何选择合适的架构?
中文模型的特殊优化?