🏗️ 主流大模型结构

简介: 本文系统梳理主流大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only与Prefix-Decoder,解析GPT、LLaMA、BERT等代表模型演进与特点,对比参数量、上下文长度等关键指标,深入探讨中文模型优化及面试高频问题,助力全面掌握大模型技术脉络。(238字)

🎯 架构分类
1️⃣ Encoder-Decoder架构
代表模型:T5、BART
特点:适合序列到序列任务
应用:翻译、摘要、问答
2️⃣ Decoder-Only架构
代表模型:GPT系列、LLaMA
特点:自回归生成
应用:文本生成、对话
3️⃣ Encoder-Only架构
代表模型:BERT、RoBERTa
特点:双向理解
应用:分类、NER、阅读理解
4️⃣ Prefix-Decoder架构
代表模型:GLM、U-PaLM
特点:编码器+部分解码器
应用:兼顾理解和生成
🤖 主流模型详解
GPT系列演进
模型
参数量
特点
发布时间
GPT-1
117M
无监督预训练
2018
GPT-2
1.5B
零样本能力
2019
GPT-3
175B
少样本学习
2020
GPT-4
~1.7T
多模态
2023
LLaMA系列
LLaMA 1:开源基础模型
LLaMA 2:商业友好许可
LLaMA 3:最强开源模型
中文大模型
Qwen:阿里巴巴开源
DeepSeek:深度求索
Kimi:月之暗面
ChatGLM:清华大学
📊 模型对比
模型
架构
参数量
上下文长度
特点
GPT-4
Decoder
~1.7T
128K
多模态、推理强
LLaMA-3
Decoder
70B
8K
开源、英文强
Qwen-72B
Decoder
72B
32K
中文优化
DeepSeek-67B
Decoder
67B
32K
数学推理
🎯 面试重点
不同架构的优缺点?
GPT和BERT的区别?
如何选择合适的架构?
中文模型的特殊优化?

相关文章
|
机器学习/深度学习 编解码 数据可视化
英特尔提出新型卷积 | 让ResNet/MobileNet/ConvNeXt等Backbone一起涨点
英特尔提出新型卷积 | 让ResNet/MobileNet/ConvNeXt等Backbone一起涨点
536 2
|
安全 Windows
windows11 永久关闭windows defender的方法
windows11 永久关闭windows defender的方法
2600 2
|
11天前
|
数据采集 算法 机器人
具身智能:零基础入门睿尔曼机械臂(五)—— 手眼标定核心原理与数学求解
本文系统讲解手眼标定技术,涵盖Eye-in-Hand与Eye-to-Hand两种架构,深入推导AX=XB方程的数学原理与求解方法,结合实际应用场景和操作步骤,为机器人视觉开发者提供从理论到实践的完整指南。
131 9
|
9月前
|
机器学习/深度学习 数据处理
大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
本文分析了大规模Transformer架构(如LLama)中归一化技术的关键作用,重点探讨了LayerNorm被RMSNorm替代的原因。归一化通过调整数据量纲保持分布形态不变,提升计算稳定性和收敛速度。LayerNorm通过均值和方差归一化确保数值稳定,适用于序列模型;而RMSNorm仅使用均方根归一化,省略均值计算,降低计算成本并缓解梯度消失问题。RMSNorm在深层网络中表现出更高的训练稳定性和效率,为复杂模型性能提升做出重要贡献。
2042 14
大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
|
Python
【金融量化】通道突破策略之布林带策略(Bollinger Band )、肯特纳通道策略(Keltner Channel)、唐奇安通道策略(Donchian)原理简介
本文介绍了三种金融量化分析中的通道突破策略:布林带策略(Bollinger Band)、肯特纳通道策略(Keltner Channel)和唐奇安通道策略(Donchian Channel),并提供了每种策略的原理和Python实现代码。
1217 2
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
一文彻底讲透GPT架构及推理原理
本篇是作者从开发人员的视角,围绕着大模型正向推理过程,对大模型的原理的系统性总结,希望对初学者有所帮助。
Request Headers 中的 Accept 是 text/event-stream
Request Headers 中的 Accept 是 text/event-stream
1857 0
|
11月前
|
JSON 人工智能 JavaScript
大语言模型下的JSON数据格式交互
本文作者总结了在解析JSON过程中遇到的一些问题和解决方案。
|
10月前
|
存储 人工智能 文字识别
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
650 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)
2206 1
【Transformer系列(5)】Transformer代码超详细解读(Pytorch)

热门文章

最新文章