Towards Understanding Valuable Preference Data for Large Language Model Alignment

文章核心总结与翻译

一、主要内容

文章聚焦大语言模型(LLM)对齐中的偏好数据质量问题,提出数据质量具有模型依赖性(对某模型有益的数据可能对另一模型有害)。通过改进传统影响函数(IF)得到截断影响函数(TIF),揭示中等IF值的偏好数据对对齐最有价值。为解决TIF计算成本高的问题,设计了两个轻量评分函数(LossDiff和IRM),并融合为LossDiff-IRM选择规则。实验表明,该规则仅使用50%-64%的数据,就能在多种LLM家族和基准测试中超越全量数据训练效果。

二、创新点

  1. 提出截断影响函数(TIF):修正传统IF的过拟合问题,明确中等IF值数据是优质偏好数据,验证数据质量的模型依赖性。
  2. 设计轻量近似代理:提出LossDiff(损失差异)IRM(隐式奖励边际) 两个评分函数,无需梯度计算仅通过前向传播,与TIF高度正相关。
  3. 融合选择规则LossDiff-IRM:抵消单个评分函数的误差,在保证计算效率的同时,逼近TIF的选择效果,实现“少而精”的数据选择。
  4. 跨场景验证通用性:在DPO/SLiC两种对齐方法、多种LLM(Llama/Qwen/Pythia)及ID/OOD基准中验证,均展现出性能优势。

三、关键部分翻译(Markdown格式)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值