精读文献1【结论】【Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models】的收获

原创于 2026-07-02 21:59:37 发布 · 17 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

当前文章被以下社区和专栏收录：

1、这部分是详细的结论。需要搞清楚做了什么，什么结果。

2、结论部分

【翻译】我们介绍了在策略自我蒸馏（OPSD），一个简单但有效的框架，用于在推理任务上对大语言模型进行后训练。OPSD的直觉是，一个足够强大的推理LLM在获得某个推理问题答案的特权信息时，可以教会自己，利用自身的推理能力来评估没有接触到真实答案的弱版本模型。我们的实验表明，OPSD的表现优于离策略蒸馏/SFT，并且在性能上与GRPO相当甚至更好，同时在样本效率上也明显优于GRPO。

3、根据【结论】部分，这篇文献做了什么？

提出了一种名为 On-Policy Self-Distillation（OPSD）的简单而有效的后训练框架，专门用于提升大语言模型的推理能力。

4、根据【结论】部分，这篇文献什么结果？

实验证明，OPSD在多个竞赛级数学推理基准上：

（1）性能优于离线蒸馏/监督微调（SFT）；

（2）与GRPO（组相对策略优化）性能相当甚至更优；

（3）同时展现出显著优于GRPO的样本效率（即用更少的生成令牌达到更好或相近的效果）。

标签