精读文献1【摘要】【Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models】的收获

1、这一篇文献是OPSD的根

2、这个标题就很简洁,很明确

3、把创新点的Self放在了标题的第一个位置,很细节,一眼可以看出创新的东西在哪里

4、把github链接放到了摘要里面,方便别人复现

5、精读之前先搞清楚:这篇文献发现了什么问题,想解决什么问题?

(这篇文献发现了现有方法的缺陷,想解决这些缺陷)

6、简单看【摘要】,做了什么?为什么做?怎么做?什么结果?(先问AI,再自己整理语言)

做了什么:提出了一个新的方法

为什么做:现有方法有一些缺陷,我想解决这些缺陷

怎么做:我先简单介绍,具体怎么做的在后面正文里面

什么结果:有效、实现了更优的....效率

7、具体看【摘要】,做了什么?为什么做?怎么做?什么结果?

做了什么:提出了一个新的方法:在线策略自蒸馏(On-Policy Self-Distillation,简称OPSD)

为什么做:因为现有的在线策略蒸馏必须依赖一个独立且更大的外部教师模型,而且没有好好利用数据集中现成的标准答案,并且我觉得一个足够强的模型应该能够理解并解释外部推理过程,从而教导较弱的自己。所以我提出了OPSD,让模型自己当自己的老师。

怎么做:(三步)让同一个 AI 模型分饰两角——既当“老师”又当“学生”。区别在于,给“老师”开小灶,让它看到标准答案和解题过程(特权信息),而“学生”只能看到题目(闭卷考试)。训练的时候,让学生先自己试着写解题步骤,每写到下一个字,我们不直接告诉它'该写什么字',而是拿老师(看过答案后)对'所有候选字分别有多合适'的判断来对照,然后慢慢把学生自己的判断倾向往老师那边调。这样,学生学到的不是死记硬背某个词,而是一种'在什么语境下倾向于写什么'的直觉。

(训练时的“老师”和“学生”是同一个脑子,只是“老师”多看了一眼答案,所以它知道该怎么正确往下走,然后把这个知识"传染"给没看答案的那个自己。)

什么结果:我们在多个数学推理基准上验证了我们方法的有效性,与强化学习方法相比,我们实现了更优的令牌效率(token efficiency),并且性能优于离线策略蒸馏方法。

8、这篇文献的摘要的写作思路

(背景知识)知识蒸馏是......,在线知识蒸馏是....(改进了前面一个方法)...。

(现存问题)然而,在线知识蒸馏...存在...问题

(我们做了什么)基于....,我们提出了....

(介绍我们做的东西)这是......(简单介绍)...

(稍微具体介绍)...(巴拉巴拉)......

(结果怎么样)我们在多个数学推理基准上验证了...有效,对比....我们实现了...

(代码仓库)....

【摘要原文】

【摘要翻译】

9、我们提出的东西用了斜体

10、对于一些术语有举例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值