2025_NIPS_Distributional Preference Alignment of LLMs via Optimal Transport

文章核心总结与翻译

一、主要内容

本文针对大型语言模型(LLMs)的分布偏好对齐问题,提出了一种基于最优传输(Optimal Transport)的新方法——AOT(Alignment via Optimal Transport)。现有LLM对齐技术(如RLHF、DPO、KTO等)多依赖样本级别的成对人类偏好数据,难以实现分布层面的对齐,而AOT通过诱导正样本奖励分布对负样本奖励分布的一阶随机占优(First Order Stochastic Dominance, FSD),实现了成对与非成对数据场景下的分布级偏好对齐。

文章通过凸松弛将FSD约束转化为带平滑凸成本的一维最优传输问题,借助排序操作获得闭式解,大幅降低计算复杂度。理论上,AOT具有参数收敛速率,样本复杂度可通过拉德马赫复杂度(Rademacher Complexity)推导验证;实证上,基于Merlinite-7B等基础模型,在AlpacaEval、Open LLM Benchmarks等多个基准测试中,AOT(含成对pAOT与非成对uAOT变体)表现优于DPO、KTO、IPO等主流方法,成为当时7B参数模型中的SOTA(State-of-the-Art)。

二、创新点

  1. 分布级对齐范式:突破现有方法的样本级偏好优化局限,首次将一阶随机占优引入LLM对齐,要求正样本分布的所有分位数均大于负样本分布,实现更全面、稳健的偏好对齐。
  2. 最优传输凸松弛框架:将分布对齐约束转化为一维最优传输问题,通过凸成本函数(如逻辑损失、 hinge平
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值