使用ms-swift的一些感悟

最新推荐文章于 2026-07-02 17:49:38 发布

原创最新推荐文章于 2026-07-02 17:49:38 发布 · 319 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

Qwen-Reranker 训练方法详解

简介

在 MS-Swift 框架中，Qwen-Reranker 是一种用于提升搜索排序效果的模型。它通过对查询和文档对的相关性进行打分，重新排列检索结果，从而提高搜索质量。本文档将详细介绍如何使用 MS-Swift 训练 Qwen-Reranker 模型，以及不同损失函数的特点和使用方法。

训练脚本示例

传统 Reranker 训练

# 使用 iic/gte-reranker-modernbert-base 模型进行训练
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model iic/gte-reranker-modernbert-base \
    --task_type reranker \
    --loss_type reranker \
    --train_type full \
    --dataset MTEB/scidocs-reranking \
    --load_from_cache_file true \
    --split_dataset_ratio 0.05 \
    --eval_strategy steps \
    --output_dir output \
    --eval_steps 100 \
    --num_train_epochs 1 \
    --save_steps 200 \
    --per_device_train_batch_size 64 \
    --per_device_eval_batch_size 64 \
    --gradient_accumulation_steps 1 \
    --dataset_num_proc 8 \
    --learning_rate 6e-6 \
    --label_names labels \
    --dataloader_drop_last true

Listwise Reranker 训练

# 使用 listwise 损失函数训练 reranker
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model iic/gte-reranker-modernbert-base \
    --task_type reranker \
    --loss_type listwise_reranker \
    --train_type full \
    --dataset MTEB/scidocs-reranking \
    --load_from_cache_file true \
    --split_dataset_ratio 0.05 \
    --eval_strategy steps \
    --output_dir output \
    --eval_steps 100 \
    --num_train_epochs 1 \
    --save_steps 200 \
    --per_device_train_batch_size 64 \
    --per_device_eval_batch_size 64 \
    --gradient_accumulation_steps 1 \
    --dataset_num_proc 8 \
    --learning_rate 6e-6 \
    --label_names labels \
    --dataloader_drop_last true

Generative Reranker 训练

# 使用 Qwen/Qwen3-Reranker-4B 模型进行 generative reranker 训练
# nproc_per_node 表示每个节点上使用的GPU数量，需要根据实际可用GPU数量进行设置
# 例如，如果您有4个GPU，则设置 nproc_per_node=4
# 如果您只有2个GPU，则设置 nproc_per_node=2，并相应调整 gradient_accumulation_steps 参数
nproc_per_node=4
NPROC_PER_NODE=$nproc_per_node \
swift sft \
    --model Qwen/Qwen3-Reranker-4B \
    --task_type generative_reranker \
    --loss_type generative_reranker \
    --train_type full \
    --dataset MTEB/scidocs-reranking \
    --load_from_cache_file true \
    --split_dataset_ratio 0.05 \
    --eval_strategy steps \
    --padding_side left \
    --output_dir output \
    --eval_steps 100 \
    --num_train_epochs 1 \
    --save_steps 200 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --dataset_num_proc 8 \
    --learning_rate 6e-6 \
    --label_names labels \
    --dataloader_drop_last true

Listwise Generative Reranker 训练

# 使用 listwise 方式训练 generative reranker
# nproc_per_node 表示每个节点上使用的GPU数量，需要根据实际可用GPU数量进行设置
# 例如，如果您有4个GPU，则设置 nproc_per_node=4
# 如果您只有2个GPU，则设置 nproc_per_node=2，并相应调整 gradient_accumulation_steps 参数
nproc_per_node=4
NPROC_PER_NODE=$nproc_per_node \
swift sft \
    --model Qwen/Qwen3-Reranker-4B \
    --task_type generative_reranker \
    --loss_type listwise_generative_reranker \
    --train_type full \
    --dataset MTEB/scidocs-reranking \
    --load_from_cache_file true \
    --split_dataset_ratio 0.05 \
    --padding_side left \
    --eval_strategy steps \
    --output_dir output \
    --eval_steps 100 \
    --num_train_epochs 1 \
    --save_steps 200 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --gradient_accumulation_steps 8 \
    --dataset_num_proc 8 \
    --learning_rate 6e-6 \
    --label_names labels \
    --dataloader_drop_last true

nproc_per_node 参数说明

nproc_per_node 参数指定了在单个节点上使用的GPU数量。这个参数非常重要，因为它直接影响到训练的并行度和内存分配。

与GPU数量的关系

必须匹配实际GPU数量：nproc_per_node 应该等于或小于您系统中实际可用的GPU数量。如果您设置的数值超过了实际GPU数量，训练将会失败。
资源利用率：设置合适的 nproc_per_node 值可以最大化利用硬件资源，提高训练效率。

对训练的影响

批量大小调整：当您减少 nproc_per_node 时，为了保持相同的全局批量大小，需要相应增加 gradient_accumulation_steps 参数。
内存分配：较少的GPU数量意味着每个GPU需要处理更多的数据，可能需要减小 per_device_train_batch_size 以避免内存溢出。
训练时间：使用更多的GPU可以加速训练过程，但也会增加通信开销。

示例配置

假设您想保持全局批量大小为 32（即 per_device_train_batch_size × nproc_per_node = 32）：

如果您有 4 个GPU：设置 nproc_per_node=4 和 per_device_train_batch_size=8
如果您有 2 个GPU：设置 nproc_per_node=2 和 per_device_train_batch_size=16
如果您只有 1 个GPU：设置 nproc_per_node=1 和 per_device_train_batch_size=32 或使用梯度累积

不同损失函数详解

1. Reranker 损失函数 (`reranker`)

传统的 reranker 损失函数将排序问题视为二分类问题，判断查询和文档是否相关。

损失函数公式

使用二元交叉熵损失（Binary Cross Entropy）：

$-\frac{1}{N} \sum_{i=1}^{N} [y_i \log(\sigma(s_i)) + (1-y_i) \log(1-\sigma(s_i))]$

其中：

$N$ 是样本数量
$y_i$ 是真实标签（1表示相关，0表示不相关）
$s_i$ 是模型给出的相关性分数
$σ\sigma$ 是 sigmoid 函数

训练数据示例

{
  "query": "机器学习算法",
  "positive_doc": "深度学习在图像识别中的应用",
  "negative_doc": "烹饪食谱大全",
  "label": 0
}

2. Generative Reranker 损失函数 (`generative_reranker`)

Generative Reranker 将排序问题转化为生成问题，模型需要生成特定的标记（如"yes"/“no”）来表示相关性。

实现原理

该方法利用模型的最后一层输出，仅关注特定标记（如"yes"和"no"）的概率分布，并基于这些概率计算损失。

损失函数公式

使用交叉熵损失：

$-\frac{1}{N} \sum_{i=1}^{N} y_i \log(p_{yes}^{(i)}) + (1-y_i) \log(p_{no}^{(i)})$

其中：

$p_{yes}^{(i)}$ 是第 $i$ 个样本生成"yes"标记的概率
$p_{no}^{(i)}$ 是第 $i$ 个样本生成"no"标记的概率

训练数据示例

{
  "query": "人工智能发展前景",
  "document": "人工智能技术在未来十年的发展趋势分析",
  "response": "yes",
  "label": 1
}

3. Listwise Reranker 损失函数 (`listwise_reranker`)

Listwise 方法将排序问题看作在一个列表中识别最相关文档的问题，直接优化整个排序列表的质量。

实现原理

该方法按查询对样本进行分组，每组包含一个正样本和多个负样本。然后使用 softmax 函数计算每个文档被选为最相关文档的概率，并使用交叉熵损失进行优化。

损失函数公式

对于每个查询组，使用 softmax 计算概率：

$pi=exp⁡(si/T)∑j=1nexp⁡(sj/T)p_i = \frac{\exp(s_i/T)}{\sum_{j=1}^{n} \exp(s_j/T)}$

其中：

$s_i$ 是第 $i$ 个文档的相关性分数
$T$ 是温度参数

损失函数为：

$-\frac{1}{N} \sum_{q=1}^{N} \log(p_{pos}^{(q)})$

其中 $p_{pos}^{(q)}$ 是查询 $q$ 中正样本的概率。

训练数据示例

[
  {
    "query": "自然语言处理技术",
    "document": "BERT模型在文本分类中的应用",
    "label": 1
  },
  {
    "query": "自然语言处理技术",
    "document": "计算机视觉最新进展",
    "label": 0
  },
  {
    "query": "自然语言处理技术",
    "document": "神经网络基础理论",
    "label": 0
  }
]

4. Listwise Generative Reranker 损失函数 (`listwise_generative_reranker`)

结合了 Generative Reranker 和 Listwise Reranker 的优点，既使用生成式方法又采用列表级优化。

实现原理

首先使用生成式方法获取每个文档的相关性分数（基于特定标记的概率），然后在每个查询组内使用 softmax 进行列表级优化。

损失函数公式

与 Listwise Reranker 类似，但相关性分数 $s_i$ 来自于生成式模型的输出：

$si=log⁡(pyes(i)pno(i))s_i = \log(\frac{p_{yes}^{(i)}}{p_{no}^{(i)}})$

然后使用相同的 softmax 和交叉熵损失进行优化。

训练数据示例

[
  {
    "query": "深度学习优化算法",
    "document": "Adam优化器在神经网络训练中的应用",
    "response": "yes",
    "label": 1
  },
  {
    "query": "深度学习优化算法",
    "document": "数据库索引技术详解",
    "response": "no",
    "label": 0
  },
  {
    "query": "深度学习优化算法",
    "document": "支持向量机分类原理",
    "response": "no",
    "label": 0
  }
]

ne## 数据扩增机制说明

在 Qwen-Reranker 训练中，通过环境变量 MAX_POSITIVE_SAMPLES 和 MAX_NEGATIVE_SAMPLES 实现数据扩增机制：

MAX_POSITIVE_SAMPLES：每个数据项中最多采样的正样本数量，默认为1
MAX_NEGATIVE_SAMPLES：每个数据项中最多采样的负样本数量，默认为7

数据扩增的具体过程如下：

每个原始数据项会被扩展成 MAX_POSITIVE_SAMPLES × (1 + MAX_NEGATIVE_SAMPLES) 个训练样本
例如，当 MAX_POSITIVE_SAMPLES=1 和 MAX_NEGATIVE_SAMPLES=7 时，每个数据项会扩展成 1×(1+7)=8 个训练样本
这些样本组成一个查询组（query group），在 listwise 损失函数中作为一个整体参与训练