Forget to Know, Remember to Use: Context-Aware Unlearning for Large Language Models

原创于 2026-07-03 14:30:00 发布 · 6 阅读

·

0

·

LLM Daily 专栏收录该内容

2922 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章总结与翻译

一、主要内容

研究背景：大型语言模型（LLMs）训练数据可能包含敏感或过时信息，需通过“遗忘（unlearning）”技术移除这类特定知识，同时保留模型整体效用。传统全量重训练成本极高，现有遗忘方法虽能在“遗忘目标知识（遗忘集）”和“保留非目标知识效用（保留集）”两方面表现良好，但忽视了关键场景——当被遗忘的信息通过提示词重新引入时，用户仍期望模型能有效利用该信息（即“上下文效用”）。
核心发现：通过对6种主流遗忘方法在Gemma-2B-IT和Qwen-3-8B模型上的系统评估（遗忘集比例1%、5%、10%），发现现有方法会严重损害上下文效用。例如，在Gemma-2B-IT模型上，5%遗忘集比例下，现有方法使上下文问答（Contextual QA）性能相对预遗忘基线模型下降15.5%至100%，即便上下文明确提供正确答案，模型也无法有效利用。
解决方案：提出“上下文感知遗忘（context-aware unlearning）”方法，在现有遗忘目标函数中加入KL散度正则化项，使遗忘后的模型在上下文查询上的响应与原始模型对齐。该插件式术语可最小修改地集成到现有遗忘算法中，无需重构核心逻辑。
实验结果：在3种主流遗忘方法（RMU、NPO、UNDIAL）上的测试表明，该方法能将上下文效用恢复至接近原始水平（Contextual QA的LLM-Judge分数平均达0.95以上），同时保持有效的遗忘

标签

#语言模型 #人工智能 #python

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。