🔧 微调技术

简介: 微调是适配预训练模型的关键技术,涵盖指令微调、对齐微调与高效参数微调。LoRA通过低秩分解减少参数量,提升训练效率;其变体如LoRA+、QLoRA、AdaLoRA进一步优化性能与资源消耗。Prefix Tuning与Prompt Tuning则以极小参数调整实现高效迁移。不同方法在效果、速度与部署间权衡,满足多样需求。(239字)

🎯 微调概述
微调是将预训练模型适配到特定任务的关键技术,包括指令微调、对齐微调和高效参数微调。
🏗️ 微调类型
1️⃣ 指令微调 (SFT)
● 原理:在指令-响应对上训练
● 数据格式:{"instruction": "...", "output": "..."}
● 效果:提升指令遵循能力
2️⃣ 对齐微调 (RLHF)
● 流程:
a. 人类偏好数据收集
b. 奖励模型训练
c. PPO强化学习优化
● 目标:使模型行为符合人类价值观
3️⃣ 高效参数微调
LoRA (Low-Rank Adaptation)
背景
矩阵中的最大的不相关的向量个数,就叫做秩。如果矩阵中数据比较相关,则为低秩矩阵。
● 例如,一个 $m \times n$ 的矩阵,如果它的秩 r 远小于 m 和 n,那么它就是一个低秩矩阵,冗余信息很多
● 反之,若矩阵的秩等于矩阵的行数 m,或者列数 n,则它是一个满秩矩阵
● 大模型的参数矩阵中的秩往往较小,具有很强的冗余
LoRA 原理
● 原理:如果一个矩阵P(假设维度为$d \times d$ )存在大量冗余信息,即低秩特性,可以不用完整的 $d \times d$ 尺寸来表示它,可利用因式分解这个想法,用两个较小的矩阵( A和B )的乘积 BA 来表示矩阵P,其中 A 维度 $r \times d$ ,B 维度 $d \times r$ ,则 $P = AB$ ,其中 $r$ 为秩,远小于 $d$ ,A 和 B 为低秩矩阵
● 思想:将全参数微调理解为“冻住的预训练权重” + “微调过程中产生的权重更新量”,因此微调只学习“更新”的那部分参数量(与预训练权重维度相同)。同时借助矩阵分解的思想,将“更新”的大模型参数矩阵分解为两个低秩矩阵的乘积,从而减少参数量,提高训练速度
● 公式:$output = W_0x + \Delta Wx = W_0x + BAx$ 其中 $W_0$ 为预训练权重,维度为 $d \times d$ ,$x$ 为输入,$B$ 和 $A$ 为可训练参数,维度分别为 $d \times r$,$r \times d$ ( $r$ 为秩,远小于 $d$ ), $\Delta W$ 为微调过程中产生的权重更新量,即$BA$
● 效果:参数更新量由 $d \times d$ 降低为 $2 \times d \times r$ ,反向传播时,只有 A、B 获得梯度,$W_0$ 不变,因而大大减少计算量
LoRA的初始化
常见的初始化方法是:矩阵A 高斯初始化,矩阵 B 初始化为零矩阵,保证模型输出在第一步与预训练一致,避免任何初始扰动,保证不会在一开始就破坏预训练表示
● 为什么A 高斯初始化,B 初始化为零矩阵?为什么不能都高斯初始化?或者都为0,或者B 高斯初始化,A 初始化为零矩阵?

具体可参考: LoRA微调中的矩阵初始化策略:A随机与B零初始化
○ A 随机与 B 零初始化: B在第一轮即可获得梯度,更新参数,A在第一轮无法获得梯度,不更新参数,但随着B的更新,A会逐渐获得梯度,开始更新
○ A 和 B 都高斯初始化: 模型输出在第一步与预训练不一致,引入噪声,干扰训练
○ A 和 B 都初始化为零: A 和 B 均无法获得梯度,无法更新,训练无法启动
○ B 随机与 A 零初始化: 理论上可能,但会导致训练效率显著下降甚至失败。B在第一轮无法获得梯度,无法更新参数,A 在第一轮的梯度不为零(取决于随机初始化的 B),可以更新,但 A 的更新需要与 B 的更新协同才能有效调整权重。由于 B 在初始阶段无法更新,A 的更新方向会受限于初始随机的 B,导致优化过程不稳定。
LoRA作用的位置
理论上LoRA的思想可以应用到任何权值矩阵上,例如在自注意机制中有四个权值矩阵 wq,wk ,wv ,wo ,另外在Transformer的全连接中也有两个权值矩阵w_up 和 w_down。关于LoRA在Transformer的作用位置,LoRA论文在自注意力层做了一组对照实验,证明如果只将LoRA作用到某个单一矩阵上,效果不佳,如果将LoRA作用到两个矩阵上,放在 wq 和 wv 效果最好。建议在所有的权值矩阵都加上LoRA,有利于模型捕捉到所有矩阵的关键信息

LoRA中参数
● $r$ :秩,表示低秩矩阵的维度,一般取1、2、4、8、16、32,比较常见的取值是8,值越高意味着矩阵越大
● lora_alpha:缩放因子,用于调整低秩矩阵的影响力。可以理解为对BA的更新幅度进行放大或缩小
● lora_target:指示需要应用低秩适应(LoRA)模块的特定网络层或模块
LoRA的变体
● LoRA+(LoRA Plus): LoRA 的增强版本,主要通过为矩阵 A 和 B 引入不同的学习率改进Lora,其中矩阵 B 的学习率设置为矩阵 A 的 16 倍。这种策略可以显著提高训练效率,同时提升模型精度(约 2%),并将训练时间缩短 2 倍。前提:原始 LoRA 中,矩阵 A 和 B 使用相同的学习率进行更新。该方法认为当模型的宽度(即嵌入维度)较大时,这种单一学习率的设置会导致微调效果不佳。)
● QLoRA(Quantized LoRA): QLoRA 是 LoRA 的量化版本,主要通过对低秩矩阵进行量化,从而显著降低存储和计算成本。这使得模型在显存受限的环境中运行更加高效。
● AdaLoRA(Adaptive LoRA):AdaLoRA 是 LoRA 的自适应版本,它支持动态调整秩,可根据任务和数据的复杂度动态调整低秩矩阵的秩,避免了固定秩带来的限制。

Prefix Tuning
● 原理:在输入前添加可训练前缀
● 特点:仅训练前缀参数
Prompt Tuning
● 原理:学习软提示词嵌入
● 特点:简单高效
📊 微调方法对比
方法 参数量 训练速度 效果 部署
全参数 100% 慢 最好 困难
LoRA 1% 快 好 容易
Prefix 0.1% 最快 中 容易

相关文章
|
机器学习/深度学习 并行计算 图形学
CPU、GPU、TPU、NPU等到底是什么?
CPU、GPU、TPU、NPU等到底是什么?
4200 3
|
2月前
|
应用服务中间件 Linux nginx
在虚拟机Docker环境下部署Nginx的步骤。
以上就是在Docker环境下部署Nginx的步骤。需要注意,Docker和Nginix都有很多高级用法和细节需要掌握,以上只是一个基础入门级别的教程。如果你想要更深入地学习和使用它们,请参考官方文档或者其他专业书籍。
169 5
|
9月前
|
人工智能 云计算
阿里云AI技术亮相春晚!独家揭秘背后的故事!
阿里云AI技术亮相春晚!独家揭秘背后的故事!
|
4月前
|
运维 关系型数据库 数据库
OB-Dashboard管理 OceanBase 集群学习笔记
OB-Dashboard管理 OceanBase 集群学习笔记
|
6月前
|
人工智能 运维 自然语言处理
技术思辨|AI Coding:经验壁垒正在失效,工具进化重塑编程
本文探讨AI Coding对传统研发模式的影响,总结5大变化趋势。AI虽降低技术门槛,但专业性并未消失,而是向更高维度转移,如问题定义与批判性思维。高效专注、可复用性及架构设计仍为核心,全栈开发与领域专家角色并存。测试与研发左移减少信息损耗,提升效率。那10%的核心技能包括长程规划、决策制定、创造性解决问题、协作沟通及持续学习能力,是AI时代开发者的关键竞争力。最后强调“老师傅”的经验依然重要,需转变价值体现方式以适应新时代需求。
技术思辨|AI Coding:经验壁垒正在失效,工具进化重塑编程
|
5月前
|
人工智能 数据可视化 测试技术
UAT测试排程工具深度解析:让验收测试不再失控,项目稳稳上线
在系统交付节奏加快的背景下,“测试节奏混乱”已成为项目延期的主因之一。UAT测试排程工具应运而生,帮助团队结构化拆解任务、清晰分配责任、实时掌控进度,打通需求、测试、开发三方协作闭环,提升测试效率与质量。本文还盘点了2025年热门UAT工具,助力团队选型落地,告别靠表格和群聊推进测试的低效方式,实现有节奏、有章法的测试管理。
|
6月前
|
存储 SQL Java
数据存储使用文件还是数据库,哪个更合适?
数据库和文件系统各有优劣:数据库读写性能较低、结构 rigid,但具备计算能力和数据一致性保障;文件系统灵活易管理、读写高效,但缺乏计算能力且无法保证一致性。针对仅需高效存储与灵活管理的场景,文件系统更优,但其计算短板可通过开源工具 SPL(Structured Process Language)弥补。SPL 提供独立计算语法及高性能文件格式(如集文件、组表),支持复杂计算与多源混合查询,甚至可替代数据仓库。此外,SPL 易集成、支持热切换,大幅提升开发运维效率,是后数据库时代文件存储的理想补充方案。
|
6月前
|
数据安全/隐私保护
智联万物的电气基石:RS485 总线阻抗匹配技术深度解码
RS485总线在工业自动化与能源管理中扮演关键角色,其差分传输技术具备抗干扰强、扩展性高和长距离通信优势。终端电阻配置是确保信号完整性和系统稳定的核心,120Ω阻抗匹配可显著降低误码率。实际应用中需遵循安装规范,避免常见误区,如错误阻值选择或全域安装。通过案例分析与前瞻性建议,规范化设计可提升系统可靠性90%以上,为工业智能化提供坚实保障。
263 0
|
存储 算法 C语言
"揭秘C语言中的王者之树——红黑树:一场数据结构与算法的华丽舞蹈,让你的程序效率飙升,直击性能巅峰!"
【8月更文挑战第20天】红黑树是自平衡二叉查找树,通过旋转和重着色保持平衡,确保高效执行插入、删除和查找操作,时间复杂度为O(log n)。本文介绍红黑树的基本属性、存储结构及其C语言实现。红黑树遵循五项基本规则以保持平衡状态。在C语言中,节点包含数据、颜色、父节点和子节点指针。文章提供了一个示例代码框架,用于创建节点、插入节点并执行必要的修复操作以维护红黑树的特性。
381 1
|
网络协议 网络架构
OSI 模型和 TCP/IP 模型的异同
OSI 模型和 TCP/IP 模型的异同
454 1