精读文献1【摘要】【Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models】的收获

最新推荐文章于 2026-07-02 10:52:37 发布

原创最新推荐文章于 2026-07-02 10:52:37 发布 · 203 阅读

·

5

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

1、这一篇文献是OPSD的根

2、这个标题就很简洁，很明确

3、把创新点的Self放在了标题的第一个位置，很细节，一眼可以看出创新的东西在哪里

4、把github链接放到了摘要里面，方便别人复现

5、精读之前先搞清楚：这篇文献发现了什么问题，想解决什么问题？

（这篇文献发现了现有方法的缺陷，想解决这些缺陷）

6、简单看【摘要】，做了什么？为什么做？怎么做？什么结果？（先问AI，再自己整理语言）

做了什么：提出了一个新的方法

为什么做：现有方法有一些缺陷，我想解决这些缺陷

怎么做：我先简单介绍，具体怎么做的在后面正文里面

什么结果：有效、实现了更优的....效率

7、具体看【摘要】，做了什么？为什么做？怎么做？什么结果？

做了什么：提出了一个新的方法：在线策略自蒸馏（On-Policy Self-Distillation，简称OPSD）

为什么做：因为现有的在线策略蒸馏必须依赖一个独立且更大的外部教师模型，而且没有好好利用数据集中现成的标准答案，并且我觉得一个足够强的模型应该能够理解并解释外部推理过程，从而教导较弱的自己。所以我提出了OPSD，让模型自己当自己的老师。

怎么做：（三步）让同一个 AI 模型分饰两角——既当“老师”又当“学生”。区别在于，给“老师”开小灶，让它看到标准答案和解题过程（特权信息），而“学生”只能看到题目（闭卷考试）。训练的时候，让学生先自己试着写解题步骤，每写到下一个字，我们不直接告诉它'该写什么字'，而是拿老师（看过答案后）对'所有候选字分别有多合适'的判断来对照，然后慢慢把学生自己的判断倾向往老师那边调。这样，学生学到的不是死记硬背某个词，而是一种'在什么语境下倾向于写什么'的直觉。

（训练时的“老师”和“学生”是同一个脑子，只是“老师”多看了一眼答案，所以它知道该怎么正确往下走，然后把这个知识"传染"给没看答案的那个自己。）

什么结果：我们在多个数学推理基准上验证了我们方法的有效性，与强化学习方法相比，我们实现了更优的令牌效率（token efficiency），并且性能优于离线策略蒸馏方法。

8、这篇文献的摘要的写作思路

（背景知识）知识蒸馏是......，在线知识蒸馏是....（改进了前面一个方法）...。

（现存问题）然而，在线知识蒸馏...存在...问题

（我们做了什么）基于....，我们提出了....

（介绍我们做的东西）这是......（简单介绍）...

（稍微具体介绍）...(巴拉巴拉)......

（结果怎么样）我们在多个数学推理基准上验证了...有效，对比....我们实现了...

（代码仓库）....

【摘要原文】

【摘要翻译】

9、我们提出的东西用了斜体

10、对于一些术语有举例

标签

#语言模型 #人工智能 #自然语言处理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。