文章总结与翻译
一、主要内容
本文聚焦大型语言模型(LLMs)训练过程中的后门攻击检测问题,针对现有训练后验证方法(如Proof-of-Learning)计算成本高、无法早期检测、对隐蔽操纵鲁棒性不足等缺陷,提出了一种名为Proof-of-Training-Steps(PoTS)的验证协议。该协议允许独立审计员(Alice)验证模型开发者(Bob)是否严格遵循声明的训练方案(包括数据批次、架构和超参数),核心通过分析LLMs的语言建模头(LM-Head)对输入扰动的敏感性,检测训练过程中的后门注入或训练偏差。
研究通过对Llama3.2-1B、Falcon3-1B、Qwen2.5等多个LLM的实验验证,表明PoTS在训练数据中后门触发比例高达10%的情况下,仍能显著降低攻击者的攻击成功率(ASR),实现攻击的早期检测(注入时即发现),且验证步骤比训练步骤快3倍。同时,该方法支持通过验证额外层来调节检测效果与计算成本的平衡,为LLM训练的可问责性和安全性提供了实用解决方案。
二、创新点
- 早期检测:打破传统训练后审计的模式,采用“训练一步+验证一步”的交替方式,可在后门攻击注入的训练步骤中即时检测,避免攻击持续扩散。
- 高效检测:发现LLMs的最终层(尤其是LM-Head)对靶向拒绝(Targeted Refusal)和越狱(Jailbreaking)两类后门攻击高度敏感,仅验证这些层即可实现有效检测,相比全模型重训练验证降低高达70%的计算成本。
- 可靠检测<
订阅专栏 解锁全文
373

被折叠的 条评论
为什么被折叠?



