对抗性攻击与防御：从FGSM到PGD，构建鲁棒AI模型的实战指南

原创于 2026-06-29 12:04:50 发布 · 371 阅读

本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述：当AI的“眼睛”被欺骗时

最近在跟几个做图像识别和自动驾驶的朋友聊天，大家不约而同地提到了一个词：模型鲁棒性。听起来挺学术，但背后的问题其实很接地气——你辛辛苦苦训练了几个月的AI模型，在测试集上准确率高达99%，一上线，可能就被一张加了点“噪声”的图片给骗了。这张图片在你我看来，可能只是一只熊猫图片上多了些难以察觉的雪花点，但模型却会无比自信地将其判定为“长臂猿”。这种专门“欺骗”AI模型的手段，就是我们今天要深入聊的“对抗性攻击”。

这可不是什么科幻情节。从人脸识别门禁被一副特制眼镜破解，到自动驾驶系统将一张贴在路边的贴纸误判为停车标志，对抗性攻击已经从实验室的理论研究，演变成了真实世界必须面对的安全威胁。它就像给AI模型戴上了一个“哈哈镜”，让模型对世界的认知产生了致命的偏差。因此，理解对抗性攻击，不仅仅是为了“攻击”，更是为了“防御”。只有知道模型是如何被欺骗的，我们才能构建起更坚固的防线，让AI模型“看得更清”，决策更可靠。无论你是算法工程师、安全研究员，还是正在将AI模型部署到生产环境的开发者，这个话题都至关重要。它关乎模型的可靠性，更关乎基于AI的系统的安全性。

2. 对抗性攻击的核心原理与分类

要理解如何防御，必须先理解攻击是如何发生的。对抗性攻击的核心思想，可以用一个生活中的类比来理解：想象你正在听一段清晰的录音，如果有人在这段录音的背景里，极其轻微地加入一段特定频率的、人耳几乎听不见的噪音，这段噪音本身无害，但它却可能让语音识别系统将“打开空调”听成“关闭灯光”。对于AI模型（尤其是深度学习模型）来说，它的决策依赖于从输入数据中提取的复杂、高维特征。对抗性攻击就是找到数据空间中一个微小的、对人类感知影响极小的方向，沿着这个方向扰动原始输入，使得模型提取的特征发生“漂移”，最终导致其做出错误的预测。

这个“微小的扰动”就是“对抗性样本”。它的生成不是随机的，而是基于模型本身梯度信息计算出来的。攻击者利用模型在训练过程中学到的“决策边界”知识，精心构造扰动，将原本位于正确分类区域的样本，“推过”决策边界，进入错误的分类区域。

2.1 攻击目标的分类：白盒、黑盒与物理攻击

根据攻击者对目标模型信息的了解程度，对抗性攻击主要分为以下几类：

白盒攻击 ：这是最理想（对攻击者而言）也是最经典的攻击场景。攻击者拥有目标模型的全部知识，包括模型结构、参数、权重，以及训练数据分布。这意味着攻击者可以精确计算模型对于任何输入的梯度，从而高效地生成对抗性样本。白盒攻击是理论研究的基础，它揭示了模型最本质的脆弱性。

注意：白盒攻击虽然在实际攻击中较难实现（因为很难获取商业模型的全部内部信息），但它在模型开发和评估阶段至关重要。开发者需要在白盒假设下测试自己模型的鲁棒性，这被称为“对抗训练”或“鲁棒性评估”。

黑盒攻击 ：这是更贴近现实的攻击场景。攻击者对目标模型一无所知，只能通过向模型输入数据并观察其输出（如预测的类别和置信度）来获取有限的信息。黑盒攻击通常基于“迁移性”——即在一个模型上生成的对抗性样本，有很大概率也能欺骗另一个结构或数据不同的模型。攻击者会训练一个自己的“替代模型”来模拟目标模型的行为，然后在替代模型上执行白盒攻击，生成的对抗样本再用于攻击真实目标。

物理世界攻击 ：这是对抗性攻击从数字世界走向物理世界的形态。攻击者不再仅仅修改图像文件中的像素，而是制作出在物理世界中存在的对抗性物体。例如，在停车标志上贴上特定形状和颜色的胶带，使其被自动驾驶系统识别为限速标志；或者佩戴一副特殊图案的眼镜，欺骗人脸识别系统。这类攻击需要考虑光照、角度、距离、相机噪声等多种现实因素，挑战更大，但危害也更为直接。

2.2 攻击方法的演进：从FGSM到PGD

生成对抗性样本的算法有很多，它们代表了攻击思想的不同演进阶段。

快速梯度符号法 ：这可以说是最著名、也最简洁的对抗攻击方法。它的思想非常直观：沿着损失函数相对于输入数据的梯度方向，给每个像素添加一个微小的扰动（通常取梯度的符号，乘以一个很小的步长ε）。这个扰动方向是使得模型损失函数增加最快的方向，也就是最可能让模型犯错的方向。FGSM计算高效，生成的对抗样本扰动通常比较均匀，是人类难以察觉的噪声模式。

投影梯度下降 ：PGD可以看作是FGSM的迭代和加强版。FGSM只走一步，而PGD会在允许的扰动范围内（一个以原始样本为中心、半径为ε的球体内），进行多步迭代的FGSM攻击。每一步都计算梯度、添加扰动，然后将扰动后的样本投影回允许的扰动球内。PGD生成的对抗样本通常比FGSM更强，它被广泛认为是衡量模型鲁棒性的“基准攻击”方法。

C&W攻击 ：由Carlini和Wagner提出，这是一类优化目标更明确的攻击方法。它将对抗样本的生成形式化为一个优化问题：在扰动尽可能小的约束下，使得目标模型对对抗样本的预测为指定的错误类别（目标攻击）或任意错误类别（非目标攻击）。C&W攻击生成的对抗样本扰动通常更小、更难以察觉，但计算成本也更高。

理解这些基础攻击方法，是构建有效防御的起点。它们从不同角度揭示了模型线性、高维特性下的脆弱本质。

3. 主流防御策略深度解析

知道了攻击的矛，我们就需要锻造防御的盾。防御对抗性攻击是一个活跃的研究领域，目前没有“银弹”，但有一系列在实践中被证明有效的策略组合。这些策略大致可以分为两类：在训练过程中增强模型鲁棒性的“主动防御”，以及在模型部署后检测或修复对抗样本的“被动防御”。

3.1 主动防御：让模型在“对抗”中成长

主动防御的核心思想是“以毒攻毒”，让模型在训练阶段就见识并学会抵抗对抗性样本。

对抗训练 ：这是目前最有效、也是最基础的主动防御方法。其流程并不复杂，但计算开销巨大：

在每一轮训练（或每隔几轮）中，对于当前批次中的每个训练样本，使用一种攻击方法（如PGD）生成其对应的对抗样本。
将原始样本和对抗样本混合，或者直接用对抗样本，来计算损失并更新模型参数。
模型在这个过程中被迫学习如何对对抗性扰动不敏感，即拉近原始样本和对抗样本在特征空间中的距离，从而“平滑”决策边界。

实操心得 ：对抗训练的关键在于“对手”的选择。使用太弱的攻击（如FGSM）进行训练，模型可能无法抵御更强的攻击（如PGD）。业内通常采用“多步PGD”作为训练时的攻击者，这被称为“PGD对抗训练”。它的训练时间通常是普通训练的5-10倍，是计算资源的“吞金兽”。在实际操作中，我们通常不会对所有数据、所有轮次都进行对抗训练，而是采用周期性对抗训练或在训练后期引入的策略来平衡效果与成本。

梯度正则化 ：这种方法的思路是直接约束模型的梯度不要太大。因为对抗性攻击依赖于大的梯度，如果一个模型对输入的微小变化不敏感（即梯度平缓），那么生成有效对抗样本所需的扰动就会更大，更容易被人眼察觉。具体做法是在损失函数中加入一项与输入梯度范数相关的惩罚项。不过，直接计算并正则化高维输入空间的梯度计算成本极高，因此衍生出一些近似方法，如“雅可比矩阵正则化”。

随机化与去噪 ：在模型内部或输入前端引入随机性，可以增加攻击者构造稳定对抗样本的难度。例如，在推理时随机丢弃一些网络神经元，或者对输入图像进行随机缩放、填充。另一种思路是在图像输入模型前，先经过一个“去噪”模块，这个模块可以是传统的图像滤波器，也可以是一个小的神经网络，目标是滤除可能存在的对抗性扰动。这类方法属于输入预处理，可以作为其他防御手段的补充。

3.2 被动防御：构筑检测与修复的防线

当模型已经训练完成并部署后，主动修改模型可能成本高昂。此时，被动防御策略提供了另一层保护。

对抗样本检测 ：这类方法不试图让模型对对抗样本免疫，而是试图将它们“揪出来”。其核心假设是：对抗样本的分布与正常样本的分布存在差异。常见的检测思路包括：

基于特征统计的检测 ：分析模型中间层激活值的统计特性（如均值、方差），对抗样本可能会表现出异常。
基于子网络一致性的检测 ：用同一个模型的不同子网络（如通过Dropout产生）对同一个样本进行多次预测，如果预测结果方差很大，则该样本可能是对抗样本。
训练专门的检测器 ：收集正常样本和对抗样本，训练一个二分类模型来区分它们。

注意事项 ：检测方法面临“自适应攻击”的挑战。即攻击者如果知道你在使用某种检测器，他可以调整攻击方法，在欺骗主模型的同时，也绕过检测器。这使得检测器与攻击者之间构成了一种新的对抗博弈。

模型集成与随机平滑 ：模型集成是提升模型泛化能力和鲁棒性的经典手段。使用多个结构不同、训练数据不同的模型进行集成预测，可以增加攻击的难度，因为攻击者需要找到一个能同时欺骗所有模型的扰动。而“随机平滑”是一种可证明鲁棒性的方法。它对输入添加随机噪声，然后统计模型在多次噪声扰动下的预测结果。如果对于某个类别，在大多数噪声扰动下模型都预测一致，那么就可以以很高的概率保证，在一定范围内的对抗性扰动不会改变预测结果。这为模型的鲁棒性提供了理论上的下界保证。

在实际的AI系统部署中，我们往往需要采用“深度防御”策略，将多种主动和被动防御方法结合起来，形成一个立体的防御体系。

4. 实战：构建一个鲁棒图像分类模型

理论说了这么多，我们来点实际的。我将带你走一遍，如何为一个经典的图像分类任务（比如CIFAR-10）构建一个具备一定对抗鲁棒性的模型。这里我们选择以PGD对抗训练为核心方法。

4.1 环境与数据准备

首先，我们需要一个标准的深度学习环境。这里以PyTorch为例。

# 基础环境
pip install torch torchvision

数据方面，我们使用CIFAR-10数据集，它包含10个类别的6万张32x32彩色图片。

import torch
import torchvision
import torchvision.transforms as transforms

# 数据预处理：标准化CIFAR-10
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
testloader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)

模型结构上，为了演示的效率和清晰度，我们选择一个轻量级的网络，比如一个简单的小型ResNet（ResNet-18）或自定义的CNN。

4.2 PGD对抗训练的关键实现

对抗训练的核心循环与普通训练不同。下面是一个简化的PGD对抗训练步骤的代码框架：

import torch.nn as nn
import torch.nn.functional as F

# 假设我们定义了一个简单的CNN模型: model
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9, weight_decay=5e-4)

# PGD攻击参数
epsilon = 8/255  # 扰动最大幅度，对应像素值[0,1]范围
alpha = 2/255    # 单次攻击步长
num_steps = 7    # PGD攻击迭代步数

for epoch in range(total_epochs):
    model.train()
    for batch_idx, (inputs, targets) in enumerate(trainloader):
        inputs, targets = inputs.to(device), targets.to(device)
        
        # 1. 生成对抗样本
        adv_inputs = inputs.clone().detach().requires_grad_(True)
        # 多步PGD攻击
        for _ in range(num_steps):
            outputs = model(adv_inputs)
            loss_adv = criterion(outputs, targets)
            loss_adv.backward()
            
            # 沿着梯度符号方向添加扰动
            perturbation = alpha * adv_inputs.grad.sign()
            adv_inputs = adv_inputs + perturbation
            
            # 将扰动投影到 epsilon 球内
            delta = torch.clamp(adv_inputs - inputs, min=-epsilon, max=epsilon)
            adv_inputs = torch.clamp(inputs + delta, 0, 1).detach().requires_grad_(True)
        
        # 2. 对抗训练
        model.zero_grad()
        # 同时使用原始样本和对抗样本，或者仅使用对抗样本。这里使用后者（更常见）。
        outputs_adv = model(adv_inputs)
        loss = criterion(outputs_adv, targets)
        loss.backward()
        optimizer.step()
        
        # ... 打印训练日志等

关键参数解析 ：

epsilon ：这是对抗扰动的 L∞ 范数上界。 8/255 是一个常用设置，意味着每个像素的最大变化不超过8（在0-255的像素尺度上）。这个值需要权衡：太小则攻击太弱，训练出的模型鲁棒性有限；太大会使图像失真明显，且可能让模型难以学习到有效特征。
alpha ：每次迭代的攻击步长。通常设置为 epsilon 的几分之一，比如 epsilon/4 。步长太大可能无法找到最优的对抗方向，太小则收敛慢。
num_steps ：PGD迭代次数。次数越多，攻击越强，但计算成本也越高。7-10步是常见的范围。

4.3 鲁棒性评估与对比

训练完成后，我们不能只看它在干净测试集上的准确率，必须评估其鲁棒性。评估方法就是用更强的攻击（比如用更多步数的PGD）去测试它。

def evaluate_robustness(model, dataloader, attack_fn, device):
    model.eval()
    correct = 0
    total = 0
    for inputs, targets in dataloader:
        inputs, targets = inputs.to(device), targets.to(device)
        # 生成对抗样本
        adv_inputs = attack_fn(model, inputs, targets)
        # 在对抗样本上测试
        with torch.no_grad():
            outputs = model(adv_inputs)
            _, predicted = outputs.max(1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()
    robust_acc = 100. * correct / total
    return robust_acc

# 定义一个更强的评估攻击（例如20步PGD）
def pgd_attack_strong(model, x, y, epsilon=8/255, alpha=2/255, steps=20):
    # ... 实现与训练时类似的PGD攻击代码
    return adv_x

# 评估
clean_accuracy = evaluate_accuracy(model, testloader, device) # 普通准确率
robust_accuracy = evaluate_robustness(model, testloader, pgd_attack_strong, device) # 鲁棒准确率
print(f'Clean Accuracy: {clean_accuracy:.2f}%')
print(f'Robust Accuracy (under strong PGD): {robust_accuracy:.2f}%')

一个典型的观察结果是：经过对抗训练的模型，其干净准确率可能会比普通训练模型下降几个百分点（例如从95%降到90%），但其鲁棒准确率会从近乎0%大幅提升到50%甚至更高。这就是鲁棒性与准确率之间的权衡。

5. 工业级部署中的挑战与应对策略

将具备对抗鲁棒性的模型从实验室推向真实业务场景，会遇到一系列独特的挑战。

5.1 计算开销与延迟的平衡

对抗训练和鲁棒性推理（如随机平滑）都会显著增加计算成本。训练时间可能增加一个数量级，推理时间也可能因为需要多次前向传播而翻倍。

应对策略 ：

模型压缩与蒸馏 ：先训练一个大型的、鲁棒的教师模型，然后通过知识蒸馏将其“知识”迁移到一个更小的学生模型中。学生模型在保持相当鲁棒性的同时，体积更小、速度更快。
选择性防御 ：并非所有请求都需要经过完整的鲁棒性检测。可以设计一个轻量级的“风险评分”模块，快速判断输入是否为疑似对抗样本，只有高风险样本才送入计算代价高昂的鲁棒性模型或检测流程。
硬件与框架优化 ：利用TensorRT、ONNX Runtime等推理优化框架，以及GPU/TPU等专用硬件，对鲁棒模型的计算图进行极致优化。

5.2 动态与自适应攻击的防御

攻击不是静态的。一旦你的防御策略公开，攻击者就会研究它并设计出“自适应攻击”来专门绕过你的防御。例如，如果他知道你用了输入随机化，他可能会使用期望转换过的攻击；如果他知道你用了基于特征的检测器，他会把绕过检测器也作为攻击优化目标的一部分。

应对策略 ：

防御策略保密与混淆 ：不公开防御的具体细节和参数。但这与安全研究的开源精神相悖，且难以持久。
构建动态、异构的防御体系 ：这是更可行的方案。不要依赖单一防御手段。可以组合使用多种检测器、多个具有不同脆弱性的模型，并随机化它们的调用顺序或参数。这大大增加了攻击者构造通用对抗样本的难度。
持续监控与迭代 ：将对抗性攻击防御视为一个持续的过程。建立模型性能监控系统，特别关注那些置信度高但预测结果奇怪的样本。定期用最新的攻击方法对线上模型进行“红蓝对抗”演练，并迭代更新模型和防御策略。

5.3 业务指标与安全指标的权衡

业务方最关心的是模型的准确率和召回率，而安全团队则强调鲁棒性和抗攻击能力。一个对对抗样本免疫但准确率下降5%的模型，业务方可能无法接受。

应对策略 ：

建立统一的评估体系 ：在模型上线前，不仅汇报干净测试集上的指标，还必须汇报在标准对抗攻击基准下的鲁棒性指标。让业务方理解“99%的准确率在对抗环境下可能毫无意义”。
场景化风险评估 ：不同业务场景对安全性的要求不同。人脸支付所需的鲁棒性等级远高于一个图片分类的娱乐应用。根据场景的风险等级，制定不同的模型鲁棒性标准。
采用可证明的鲁棒性技术 ：如随机平滑，它能提供一个数学上可证明的鲁棒性半径。虽然这个半径通常比较保守，但它提供了一个确定性的安全保证，在与业务方沟通时更具说服力。你可以说：“我们的模型保证，对于任何扰动不超过X的输入，其预测结果不会改变。”

在实际部署中，我个人的体会是，对抗性防御没有一劳永逸的解决方案。它更像是一场攻防双方不断升级的军备竞赛。作为防御方，我们能做的是提高攻击的成本和门槛，将系统设计得足够纵深，并保持对新型攻击的警惕和快速响应能力。从架构上，将AI模型视为一个可能存在漏洞的组件，在其前后端部署输入验证、异常检测、多模型投票等安全机制，是构建可靠AI系统的必由之路。

标签