模型微调之基础篇:模型微调概念以及微调框架

首先过一下本章的内容大纲。

  • 前言
  • 什么是模型微调?
  • 模型微调的方式
  • 大模型微调框架简介
  • 专有名词

前言

之前我们一直强调,大语言模型(LLM)是概率生成系统。**
**

能力边界

  • 知识时效性:模型知识截止于训练数据时间点
  • 推理局限性:本质是概率预测而非逻辑运算,复杂数学推理易出错(deepseek的架构有所不同)
  • 专业领域盲区:缺乏垂直领域知识
  • 幻觉现象:可能生成看似合理但实际错误的内容

之前一直讲解如何通过各种不同的知识库进行知识片段的检索,并通过提示词临时注入到大模型。从今天开始,我会写一写微调相关的文章。

什么是模型微调?

  • 定义:在预训练大模型(如GPT、BERT)的基础上,使用特定领域或任务的数据进行额外训练,使模型适应新任务。
  • 类比:类似“博士生在通识教育(预训练)后,专攻某个研究方向(微调)”。

微调适用场景

提升特定领域的专业性

场景特点

高度专业化知识(如医学、法律、金融、科技等) ,通用大模型缺乏特定领域的知识和逻辑。

示例

  • 医疗报告生成(需准确使用医学术语和遵循临床病例格式)
  • 法律合同审核(需识别合同条款的合规性和潜在风险)
  • 财务报告解析:从PDF年报中提取营收、毛利率等结构化数据
  • 科研论文评审:识别论文方法论部分的实验设计缺陷
让模型更符合企业需求

场景特点

企业需要 AI 具备特定业务逻辑。

示例

  • 代码生成:蚂蚁的zone,美团的set,普通的模型能解决代码实现的问题,但是解决不了他们的zone和set的逻辑。比如阿里的代码员工,就是微调出来的。
  • 业务流程:每个公司的业务流程不一样,每个节点的规则也不一样,如果我把项目流程微调到大模型
  • 企业助手:比如各种手册的微调,然后就是一个企业的产品专家。
让模型更符合用户偏好

场景特点

个性化

示例

  • 个性化的聊天:每个互联网产品都有自己的风格和用户特性(提示词能解决一部分)
  • 内容创作助手:把小说的大纲,以及涉及的知识点微调进去,视频风格微调进去。
  • 游戏NPC:游戏的设定等微调进去,NPC更具备灵活性。
让模型执行特定任务

场景特点

标准化任务。

示例

  • 代码生成模型:用大量 Java、Python 代码训练 AI,让它更擅长某种编程语言。
  • 表格理解: 微调模型解析扫描文档中的复杂表格结构,提取关键字段
数据安全 & 隐私问题

场景特点

数据敏感。

示例:

  • 银行数据:通过本地微调银行敏感数据,微调出具备风险能力的模型,让模型在不暴露的前提下具备风险识别能力。
  • 医疗机构: 通过本地微调病人病例和诊断证明,专业数据,让模型具备辅助诊断能力。
资源受限场景

场景特点:

离线设备、专业设备、低显存。

示例:

  • 设备故障诊断手册查询:微调轻量级模型快速解析设备编码与维修手册条目的对应关系
  • 地下或海底:救护知识手段,生存技能

何时选择微调 vs. 其他方案?

场景推荐方案原因
数据充足且领域差异大全参数微调最大化模型能力,适应性强
数据少但需快速适配LoRA/P-Tuning节省资源,避免过拟合
实时性要求高RAG(检索增强生成)动态注入最新知识,无需重新训练
输出需严格可控提示工程+少量微调通过模板约束输出,微调提升指令跟随能力
无标注数据零样本/少样本提示直接利用预训练知识,成本最低

模型微调的方式

1. 按训练目标分类

有监督微调(Supervised Fine-Tuning, SFT)

有监督微调是最常见的微调方式,适用于任务明确且具有标注数据的情况。通过使用人工标注的高质量数据对,模型能够学习特定任务所需的知识,从而在指定任务上提供准确的输出。

  • 适用场景:数据充足且任务目标明确的情况,如文本分类、情感分析、命名实体识别等。

数据示例:

[
  {
    "instruction": "作为法律顾问,请回答以下问题:",  // 可选指令模板
    "input": "如果我在公司被解雇,我有权获得多少赔偿?",
    "output": "根据《劳动合同法》第47条..."
  },
  {
    "input": "签订购房合同后,开发商违约怎么办?",
    "output": "您可以依据《合同法》要求..."
  }
]
指令微调(Instruction Tuning)

指令微调旨在增强模型理解并执行不同指令的能力。通过指令-输出对的训练,使模型能够更好地遵循人类指令,提高其在多个任务上的泛化能力。

  • 适用场景:需要提升模型的泛化性和指令理解能力,如聊天机器人、自动化任务、智能问答等。

数据示例:

[
  {
    "instruction": "用简单的语言解释量子力学。",
    "input": "",//可省略
    "output": "量子力学是研究微小粒子行为的科学..."
  },
  {
    "instruction": "将以下句子翻译成法语。",
    "input": "你好,今天天气不错。",
    "output": "Bonjour, il fait beau aujourd'hui."
  }
]
对齐方法(RLHF/DPO)

通过人类反馈(如 Reinforcement Learning from Human Feedback, RLHF)或直接偏好优化(Direct Preference Optimization, DPO),调整模型的输出,使其更符合人类价值观,提高安全性和一致性。

  • 适用场景:需要控制模型输出的安全性或风格一致性,如客服机器人、儿童内容生成、内容审核等。

RLHF数据示例:

[
  {
    "prompt": "请写一篇关于气候变化的文章。",
    "chosen": "气候变化是人类面临的最紧迫问题之一。科学研究表明...",
    "rejected": "气候变化是媒体夸大的骗局,无需在意。",
    "score": {"chosen": 5, "rejected": 1},  // 可选:标注人工评分
    "reject_reason": "否定科学共识"          // 可选:标注拒绝原因
  }
]

rejected 回答应明确包含安全性或价值观问题(如危险步骤、歧视性内容),而非仅是质量差异

DPO数据示例:

[
  {
    "prompt": "如何回应‘女性不适合学理科’的观点?",
    "chosen": "性别不应限制个人发展,许多女性科学家取得了卓越成就。",
    "rejected": "女性的逻辑思维确实比男性差,这是客观事实。"
  }
]
多任务学习

通过同时优化多个相关任务,提升模型的泛化能力,使其能够高效处理多种任务。通过损失函数动态调整不同任务的训练权重。

  • 适用场景:任务之间存在关联性,适用于智能助理、语音识别、情感分析等任务。

数据示例:

[
  {
    "task": "情感分析",
    "input": "这款手机的电池寿命太短了,太失望了。",
    "output": "负面",
  },
  {
    "task": "文本摘要",
    "input": "近日,某科技公司发布了一款新产品...",
    "output": "某科技公司发布新品"
  }
]

2. 按参数更新策略分类

全参数微调(Full Fine-Tuning)

所有模型参数都参与训练,通常需要大量计算资源,适用于数据充足、计算资源充足的情况。

  • 技术代表:常规SFT、RLHF(如ChatGPT的训练方式)。

数据示例:

{
  "model": "GPT-3",
  "trainable_parameters": "100%",
  "dataset": "500K法律文本对",
  "fine_tuning_method": "全参数微调"
}

部分冻结微调(Partial Fine-Tuning)

仅训练模型的部分层,如冻结底层参数,仅更新高层参数,降低计算开销。

  • 技术代表:如BERT冻结前8层,仅训练后4层。

数据示例:

{
  "model": "BERT",
  "trainable_layers": "最后4层",
  "frozen_layers": "前8层",
  "fine_tuning_method": "部分冻结微调"
}

参数高效微调(PEFT)

仅更新少量的参数,通常通过结构化方法(如LoRA、Adapter)减少计算需求,并在低资源环境下实现高效微调。

  • 技术代表:LoRA(低秩适配)、Adapter(插入小网络)。

LoRA的特点:

  • 只调整部分参数(如低秩矩阵分解)。
  • 降低计算和内存开销。
  • 适合快速微调,尤其在资源受限时。

adapter的特点:

  • 插入额外的 Adapter 层
  • 降低计算和内存开销。(仅训练 Adapter 层和可独立存储 Adapter 层)
  • 多任务学习、迁移学习。

最后比较下:

  • Adapter 插入额外的小型可训练模块,适用于多任务和迁移学习。
  • LoRA 通过低秩矩阵分解,调整少量关键参数,适用于快速微调。
  • 如果需要在 多个任务间切换,Adapter 更合适;如果只是对单个任务高效微调,LoRA 更优。

大模型微调框架简介

在大模型微调领域,存在多种框架,每个框架都有其独特的优势和局限性。下面介绍几种常见的微调框架,包括示例代码和适用模型,帮助你根据任务需求选择最合适的框架。

1. Hugging Face Transformers

简介:
Hugging Face Transformers 业界标准NLP框架,提供200+预训练模型和全流程工具链,覆盖文本、图像、音频多模态任务。

核心优势:

  • 全模态任务覆盖
  • 预训练模型生态(社区模型库含30万+微调模型,并且覆盖覆盖 BERT、GPT、LLaMA、Whisper、ViT 等主流架构)
  • 跨框架无缝衔接
  • 开箱即用工具链
  • 企业级部署支持
  • 开发社区极为活跃

img

尽管 Hugging Face Transformers 在许多常见任务中表现优秀,但在超大规模模型的微调和训练中,可能会面临性能瓶颈和资源消耗过大的问题。

2. DeepSpeed

简介:
DeepSpeed是微软开发的分布式训练引擎,通过ZeRO优化实现百亿级模型全参数微调。

核心技术:

  • ZeRO 显著减少内存占用,提高分布式训练的效率
  • CPU Offloading 混合精度训练,加速训练过程并减少显存需求
  • 自适应梯度累积

DeepSpeed适合大规模模型的训练,但使用门槛较高,需要深入理解框架的底层实现。img看了下官网,不是我能玩的。

3. LLaMA-Factory(本文使用的框架)

简介:
国产低代码微调框架,

看下官方的介绍。 img

4,Megatron-LM

简介:
NVIDIA千亿级模型训练框架,采用3D混合并行策略
张量并行 + 流水并行 + 数据并行

性能指标:

  • 175B模型训练:3072 A100(80G)
  • 吞吐量:502 petaFLOPs

适用场景:
GPT-4级别模型预训练/微调。

据说坑不少,有不少人推荐。torchtitan。

如何选择微调框架?

img

不管是感官上,还是大模型得推荐上,对于我来说选择LLaMA-Factory是最好的选择。后续我基于这个做微调实现。

专有名词

过拟合(Overfitting)

介:**
NVIDIA千亿级模型训练框架,采用3D混合并行策略
张量并行 + 流水并行 + 数据并行

性能指标:

  • 175B模型训练:3072 A100(80G)
  • 吞吐量:502 petaFLOPs

适用场景:
GPT-4级别模型预训练/微调。

据说坑不少,有不少人推荐。torchtitan。

是指模型在训练数据上表现得非常好,但在新数据或测试数据上的表现较差的现象。换句话说,模型过度学习了训练数据中的细节和噪声,以至于无法很好地泛化到未见过的数据。

零基础如何高效学习大模型?

你是否懂 AI,是否具备利用大模型去开发应用能力,是否能够对大模型进行调优,将会是决定自己职业前景的重要参数。

为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和鲁为民博士系统梳理大模型学习脉络,这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手,逐步深入到 Agents,其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑!

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得,相信跟着学习下来能够对大模型有更加深刻的认知和理解,也能真正利用起大模型,从而“弯道超车”,实现职业跃迁!

图片

【AI 大模型面试题 】

除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享(92份)】

图片

【AI 大模型面试真题(102 道)】

图片

【LLMs 面试真题(97 道)】

图片

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图(2025版)】

明确学习方向,2025年 AI 要学什么,这一张图就够了!

img

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮,重塑职业未来!

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整,缩减部分传统岗位,同时AI相关技术岗位(尤其是大模型方向)需求激增,已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察:

  • 转型加速: 传统IT岗位面临转型压力,拥抱AI技术成为关键。
  • 人才争夺战: 拥有3-5年经验、扎实AI技术功底真实项目经验的工程师,在头部大厂及明星AI企业中的薪资竞争力显著提升(部分核心岗位可达较高水平)。
  • 门槛提高: “具备AI项目实操经验”正迅速成为简历筛选的重要标准,预计未来1-2年将成为普遍门槛。

与其观望,不如行动!

面对变革,主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验,是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料?

当前,我国在AI大模型领域的高质量人才供给仍显不足,行业亟需更多有志于此的专业力量加入。

因此,我们决定将这份精心整理的AI大模型学习资料,无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴!

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题,也欢迎交流探讨,我们乐于分享所知。

*02 这份资料的价值在哪里?*

专业背书,系统构建:

  • 本资料由我与鲁为民博士共同整理。鲁博士拥有清华大学学士美国加州理工学院博士学位,在人工智能领域造诣深厚:

    • 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇
    • 拥有多项中美发明专利。
    • 荣获吴文俊人工智能科学技术奖(中国人工智能领域重要奖项)。
  • 目前,我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用,循序渐进:

  • 资料体系化覆盖了从基础概念入门核心技术进阶的知识点。

  • 包含丰富的视频教程实战项目案例,强调动手实践能力。

  • 无论你是初探AI领域的新手,还是已有一定技术基础希望深入大模型的学习者,这份资料都能为你提供系统性的学习路径和宝贵的实践参考助力你提升技术能力,向大模型相关岗位转型发展

    在这里插入图片描述在这里插入图片描述在这里插入图片描述

抓住机遇,开启你的AI学习之旅!

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员一粟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值