PoTS: Proof-of-Training-Steps for Backdoor Detection in Large Language Models

原创于 2026-06-26 09:30:00 发布 · 110 阅读

·

3

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 专栏收录该内容

2871 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章总结与翻译

一、主要内容

本文聚焦大型语言模型（LLMs）训练过程中的后门攻击检测问题，针对现有训练后验证方法（如Proof-of-Learning）计算成本高、无法早期检测、对隐蔽操纵鲁棒性不足等缺陷，提出了一种名为Proof-of-Training-Steps（PoTS）的验证协议。该协议允许独立审计员（Alice）验证模型开发者（Bob）是否严格遵循声明的训练方案（包括数据批次、架构和超参数），核心通过分析LLMs的语言建模头（LM-Head）对输入扰动的敏感性，检测训练过程中的后门注入或训练偏差。

研究通过对Llama3.2-1B、Falcon3-1B、Qwen2.5等多个LLM的实验验证，表明PoTS在训练数据中后门触发比例高达10%的情况下，仍能显著降低攻击者的攻击成功率（ASR），实现攻击的早期检测（注入时即发现），且验证步骤比训练步骤快3倍。同时，该方法支持通过验证额外层来调节检测效果与计算成本的平衡，为LLM训练的可问责性和安全性提供了实用解决方案。

二、创新点

早期检测：打破传统训练后审计的模式，采用“训练一步+验证一步”的交替方式，可在后门攻击注入的训练步骤中即时检测，避免攻击持续扩散。
高效检测：发现LLMs的最终层（尤其是LM-Head）对靶向拒绝（Targeted Refusal）和越狱（Jailbreaking）两类后门攻击高度敏感，仅验证这些层即可实现有效检测，相比全模型重训练验证降低高达70%的计算成本。
可靠检测<

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。