1、这部分是详细的结论。需要搞清楚做了什么,什么结果。
2、结论部分

【翻译】我们介绍了在策略自我蒸馏(OPSD),一个简单但有效的框架,用于在推理任务上对大语言模型进行后训练。OPSD的直觉是,一个足够强大的推理LLM在获得某个推理问题答案的特权信息时,可以教会自己,利用自身的推理能力来评估没有接触到真实答案的弱版本模型。我们的实验表明,OPSD的表现优于离策略蒸馏/SFT,并且在性能上与GRPO相当甚至更好,同时在样本效率上也明显优于GRPO。
3、根据【结论】部分,这篇文献做了什么?
提出了一种名为 On-Policy Self-Distillation(OPSD) 的简单而有效的后训练框架,专门用于提升大语言模型的推理能力。
4、根据【结论】部分,这篇文献什么结果?
实验证明,OPSD在多个竞赛级数学推理基准上:
(1)性能优于离线蒸馏/监督微调(SFT);
(2)与GRPO(组相对策略优化)性能相当甚至更优;
(3)同时展现出显著优于GRPO的样本效率(即用更少的生成令牌达到更好或相近的效果)。
19

被折叠的 条评论
为什么被折叠?



