PoTS: Proof-of-Training-Steps for Backdoor Detection in Large Language Models

文章总结与翻译

一、主要内容

本文聚焦大型语言模型(LLMs)训练过程中的后门攻击检测问题,针对现有训练后验证方法(如Proof-of-Learning)计算成本高、无法早期检测、对隐蔽操纵鲁棒性不足等缺陷,提出了一种名为Proof-of-Training-Steps(PoTS)的验证协议。该协议允许独立审计员(Alice)验证模型开发者(Bob)是否严格遵循声明的训练方案(包括数据批次、架构和超参数),核心通过分析LLMs的语言建模头(LM-Head)对输入扰动的敏感性,检测训练过程中的后门注入或训练偏差。

研究通过对Llama3.2-1B、Falcon3-1B、Qwen2.5等多个LLM的实验验证,表明PoTS在训练数据中后门触发比例高达10%的情况下,仍能显著降低攻击者的攻击成功率(ASR),实现攻击的早期检测(注入时即发现),且验证步骤比训练步骤快3倍。同时,该方法支持通过验证额外层来调节检测效果与计算成本的平衡,为LLM训练的可问责性和安全性提供了实用解决方案。

二、创新点

  1. 早期检测:打破传统训练后审计的模式,采用“训练一步+验证一步”的交替方式,可在后门攻击注入的训练步骤中即时检测,避免攻击持续扩散。
  2. 高效检测:发现LLMs的最终层(尤其是LM-Head)对靶向拒绝(Targeted Refusal)和越狱(Jailbreaking)两类后门攻击高度敏感,仅验证这些层即可实现有效检测,相比全模型重训练验证降低高达70%的计算成本。
  3. 可靠检测<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值