文章总结与翻译
一、主要内容
-
研究背景:大型语言模型(LLMs)训练数据可能包含敏感或过时信息,需通过“遗忘(unlearning)”技术移除这类特定知识,同时保留模型整体效用。传统全量重训练成本极高,现有遗忘方法虽能在“遗忘目标知识(遗忘集)”和“保留非目标知识效用(保留集)”两方面表现良好,但忽视了关键场景——当被遗忘的信息通过提示词重新引入时,用户仍期望模型能有效利用该信息(即“上下文效用”)。
-
核心发现:通过对6种主流遗忘方法在Gemma-2B-IT和Qwen-3-8B模型上的系统评估(遗忘集比例1%、5%、10%),发现现有方法会严重损害上下文效用。例如,在Gemma-2B-IT模型上,5%遗忘集比例下,现有方法使上下文问答(Contextual QA)性能相对预遗忘基线模型下降15.5%至100%,即便上下文明确提供正确答案,模型也无法有效利用。
-
解决方案:提出“上下文感知遗忘(context-aware unlearning)”方法,在现有遗忘目标函数中加入KL散度正则化项,使遗忘后的模型在上下文查询上的响应与原始模型对齐。该插件式术语可最小修改地集成到现有遗忘算法中,无需重构核心逻辑。
-
实验结果:在3种主流遗忘方法(RMU、NPO、UNDIAL)上的测试表明,该方法能将上下文效用恢复至接近原始水平(Contextual QA的LLM-Judge分数平均达0.95以上),同时保持有效的遗忘
订阅专栏 解锁全文
1283

被折叠的 条评论
为什么被折叠?



