🔧 微调技术-阿里云开发者社区

🔧 微调技术

2025-12-18 29

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 微调是适配预训练模型的关键技术，涵盖指令微调、对齐微调与高效参数微调。LoRA通过低秩分解减少参数量，提升训练效率；其变体如LoRA+、QLoRA、AdaLoRA进一步优化性能与资源消耗。Prefix Tuning与Prompt Tuning则以极小参数调整实现高效迁移。不同方法在效果、速度与部署间权衡，满足多样需求。（239字）

🎯 微调概述
微调是将预训练模型适配到特定任务的关键技术，包括指令微调、对齐微调和高效参数微调。
🏗️ 微调类型
1️⃣ 指令微调 (SFT)
● 原理：在指令-响应对上训练
● 数据格式：{"instruction": "...", "output": "..."}
● 效果：提升指令遵循能力
2️⃣ 对齐微调 (RLHF)
● 流程：
a. 人类偏好数据收集
b. 奖励模型训练
c. PPO强化学习优化
● 目标：使模型行为符合人类价值观
3️⃣ 高效参数微调
LoRA (Low-Rank Adaptation)
背景
矩阵中的最大的不相关的向量个数，就叫做秩。如果矩阵中数据比较相关，则为低秩矩阵。
● 例如，一个 $m \times n$ 的矩阵，如果它的秩 r 远小于 m 和 n，那么它就是一个低秩矩阵，冗余信息很多
● 反之，若矩阵的秩等于矩阵的行数 m，或者列数 n，则它是一个满秩矩阵
● 大模型的参数矩阵中的秩往往较小，具有很强的冗余
LoRA 原理
● 原理：如果一个矩阵P（假设维度为$d \times d$ ）存在大量冗余信息，即低秩特性，可以不用完整的 $d \times d$ 尺寸来表示它，可利用因式分解这个想法，用两个较小的矩阵（ A和B ）的乘积 BA 来表示矩阵P，其中 A 维度 $r \times d$ ，B 维度 $d \times r$ ，则 $P = AB$ ，其中 $r$ 为秩，远小于 $d$ ，A 和 B 为低秩矩阵
● 思想：将全参数微调理解为“冻住的预训练权重” + “微调过程中产生的权重更新量”，因此微调只学习“更新”的那部分参数量（与预训练权重维度相同）。同时借助矩阵分解的思想，将“更新”的大模型参数矩阵分解为两个低秩矩阵的乘积，从而减少参数量，提高训练速度
● 公式：$output = W_0x + \Delta Wx = W_0x + BAx$ 其中 $W_0$ 为预训练权重，维度为 $d \times d$ ，$x$ 为输入，$B$ 和 $A$ 为可训练参数，维度分别为 $d \times r$，$r \times d$ ( $r$ 为秩，远小于 $d$ ), $\Delta W$ 为微调过程中产生的权重更新量，即$BA$
● 效果：参数更新量由 $d \times d$ 降低为 $2 \times d \times r$ ，反向传播时，只有 A、B 获得梯度，$W_0$ 不变，因而大大减少计算量
LoRA的初始化
常见的初始化方法是：矩阵A 高斯初始化，矩阵 B 初始化为零矩阵，保证模型输出在第一步与预训练一致，避免任何初始扰动，保证不会在一开始就破坏预训练表示
● 为什么A 高斯初始化，B 初始化为零矩阵？为什么不能都高斯初始化？或者都为0，或者B 高斯初始化,A 初始化为零矩阵？

具体可参考： LoRA微调中的矩阵初始化策略：A随机与B零初始化
○ A 随机与 B 零初始化： B在第一轮即可获得梯度，更新参数，A在第一轮无法获得梯度，不更新参数，但随着B的更新，A会逐渐获得梯度，开始更新
○ A 和 B 都高斯初始化：模型输出在第一步与预训练不一致，引入噪声，干扰训练
○ A 和 B 都初始化为零： A 和 B 均无法获得梯度，无法更新，训练无法启动
○ B 随机与 A 零初始化：理论上可能，但会导致训练效率显著下降甚至失败。B在第一轮无法获得梯度，无法更新参数，A 在第一轮的梯度不为零（取决于随机初始化的 B），可以更新，但 A 的更新需要与 B 的更新协同才能有效调整权重。由于 B 在初始阶段无法更新，A 的更新方向会受限于初始随机的 B，导致优化过程不稳定。
LoRA作用的位置
理论上LoRA的思想可以应用到任何权值矩阵上，例如在自注意机制中有四个权值矩阵 wq，wk ，wv ，wo ，另外在Transformer的全连接中也有两个权值矩阵w_up 和 w_down。关于LoRA在Transformer的作用位置，LoRA论文在自注意力层做了一组对照实验，证明如果只将LoRA作用到某个单一矩阵上，效果不佳，如果将LoRA作用到两个矩阵上，放在 wq 和 wv 效果最好。建议在所有的权值矩阵都加上LoRA，有利于模型捕捉到所有矩阵的关键信息

LoRA中参数
● $r$ ：秩，表示低秩矩阵的维度，一般取1、2、4、8、16、32，比较常见的取值是8，值越高意味着矩阵越大
● lora_alpha：缩放因子，用于调整低秩矩阵的影响力。可以理解为对BA的更新幅度进行放大或缩小
● lora_target：指示需要应用低秩适应（LoRA）模块的特定网络层或模块
LoRA的变体
● LoRA+（LoRA Plus）： LoRA 的增强版本，主要通过为矩阵 A 和 B 引入不同的学习率改进Lora，其中矩阵 B 的学习率设置为矩阵 A 的 16 倍。这种策略可以显著提高训练效率，同时提升模型精度（约 2%），并将训练时间缩短 2 倍。前提：原始 LoRA 中，矩阵 A 和 B 使用相同的学习率进行更新。该方法认为当模型的宽度（即嵌入维度）较大时，这种单一学习率的设置会导致微调效果不佳。）
● QLoRA（Quantized LoRA）： QLoRA 是 LoRA 的量化版本，主要通过对低秩矩阵进行量化，从而显著降低存储和计算成本。这使得模型在显存受限的环境中运行更加高效。
● AdaLoRA（Adaptive LoRA）：AdaLoRA 是 LoRA 的自适应版本，它支持动态调整秩，可根据任务和数据的复杂度动态调整低秩矩阵的秩，避免了固定秩带来的限制。

Prefix Tuning
● 原理：在输入前添加可训练前缀
● 特点：仅训练前缀参数
Prompt Tuning
● 原理：学习软提示词嵌入
● 特点：简单高效
📊 微调方法对比
方法参数量训练速度效果部署
全参数 100% 慢最好困难
LoRA 1% 快好容易
Prefix 0.1% 最快中容易

🔧 微调技术

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

🔧 微调技术

热门文章

最新文章

相关电子书