文章核心总结与翻译
一、主要内容
本文针对大型语言模型(LLMs)的分布偏好对齐问题,提出了一种基于最优传输(Optimal Transport)的新方法——AOT(Alignment via Optimal Transport)。现有LLM对齐技术(如RLHF、DPO、KTO等)多依赖样本级别的成对人类偏好数据,难以实现分布层面的对齐,而AOT通过诱导正样本奖励分布对负样本奖励分布的一阶随机占优(First Order Stochastic Dominance, FSD),实现了成对与非成对数据场景下的分布级偏好对齐。
文章通过凸松弛将FSD约束转化为带平滑凸成本的一维最优传输问题,借助排序操作获得闭式解,大幅降低计算复杂度。理论上,AOT具有参数收敛速率,样本复杂度可通过拉德马赫复杂度(Rademacher Complexity)推导验证;实证上,基于Merlinite-7B等基础模型,在AlpacaEval、Open LLM Benchmarks等多个基准测试中,AOT(含成对pAOT与非成对uAOT变体)表现优于DPO、KTO、IPO等主流方法,成为当时7B参数模型中的SOTA(State-of-the-Art)。
二、创新点
- 分布级对齐范式:突破现有方法的样本级偏好优化局限,首次将一阶随机占优引入LLM对齐,要求正样本分布的所有分位数均大于负样本分布,实现更全面、稳健的偏好对齐。
- 最优传输凸松弛框架:将分布对齐约束转化为一维最优传输问题,通过凸成本函数(如逻辑损失、 hinge平

订阅专栏 解锁全文
636

被折叠的 条评论
为什么被折叠?



