用于无监督异常检测的记忆感知网络与真实异常合成

异常数据的稀缺性 (Scarcity)： 异常事件本质上是罕见和偶发的。在工业生产中，良品率通常高达99%以上，收集大量缺陷样本成本极高甚至不可能。在医疗中，阳性病例远少于阴性病例。
异常数据的多样性 (Diversity) 与非平稳分布 (Non-stationary Distribution)： “异常”是一个开放集（Open-Set），其形态不可预知。一个工业品可能存在无数种缺陷类型（划痕、裂纹、腐蚀…），且不断有新的缺陷出现。模型无法在训练阶段见到所有可能的异常模式，导致监督学习模型难以泛化，极易过拟合到已见过的少数异常类型上，而对新异常失效。

“我们无法用有限的异常样本，去定义一个无限的异常空间。” 这正是监督学习在异常检测任务中的阿喀琉斯之踵。

为了解决上述挑战，研究范式发生了根本性转变：无监督异常检测 (Unsupervised Anomaly Detection, UAD)。

1. 核心思想：
UAD方法仅使用大量“正常”样本进行训练。其基本假设是：正常数据处于一个低维流形或具有某种可建模的分布，而异常则会偏离这个分布。

2. 核心优势与重要意义：

解决数据稀缺问题： 完全摆脱了对异常样本的依赖，只需要容易获取的大量正常数据，极大降低了数据收集和标注成本。
应对未知异常： 由于模型学习的是“正常”的概念，任何偏离正常模式的数据都可以被判定为异常。这使得模型具备了检测前所未见的异常类型的能力，泛化性更强。
更符合实际应用场景： 在大多数真实世界中，定义“正常”远比枚举所有“异常”要简单可行。UAD范式与这种现实需求完美契合。

3. 基本流程：

训练阶段： 使用正常数据集训练模型，学习其分布特征或重构模式。
推理阶段： 输入一张测试图像，模型会生成一个异常分数（Anomaly Score）和/或一个异常定位热力图（Anomaly Map）。
- 异常分数： 衡量整张图像为异常的可能性。
- 异常定位： 指示图像中哪些区域最可能包含异常。

基于“仅使用正常数据学习”这一核心思想，研究者们提出了多种技术路线。主流方法大致可分为以下几类：

1. 基于重构的方法 (Reconstruction-based Methods)

思想： 训练一个编码器-解码器（自编码器，Autoencoder）网络，学习如何完美地重构正常图像。由于模型只学过正常模式，当输入异常图像时，其重构误差会很大。
代表模型： 传统自编码器（AE）、变分自编码器（VAE）。
优点： 直观，易于实现。
缺点： 模型有时“过于强大”，即使输入异常图像，也能较好地重构出来（即“泛化”到了异常上），导致漏检。为此，后续提出了记忆模块（MemAE）、对抗性训练等来限制模型的重构能力。

2. 基于生成模型的方法 (Generative Model-based Methods)

思想： 学习正常数据的分布。异常样本由于不在该分布内，会具有较低的概率密度值。
代表模型： 生成对抗网络（GANs）、标准化流（Normalizing Flows）、扩散模型（Diffusion Models）。
- GANs for AD: 训练一个生成器G和一个判别器D。常用方法是让生成器学习生成正常图像，然后寻找一个潜在向量z，使得生成图像G(z)与测试图像最相似。异常图像难以找到合适的z，其重构误差会很大。
- Normalizing Flows: 通过一系列可逆变换将简单分布（如高斯分布）精确地转换为复杂的数据分布。可以直接计算图像的确切似然概率，概率越低越可能是异常。
优点： 对数据分布有显式建模，理论基础扎实。
缺点： 训练复杂，计算成本高。

3. 基于特征嵌入的方法 (Feature Embedding-based Methods)

思想： 这是当前最主流和性能最好的方向。利用在大型自然图像数据集（如ImageNet）上预训练好的深度网络（如ResNet、ViT）作为特征提取器。正常图像在深度特征空间中会聚集在特定区域，而异常图像的特征会偏离这些区域。
代表模型与技术：
- SPADE, PaDiM: 在预训练网络的不同层级提取特征，为每个正常图像块构建一个多元高斯分布。异常图像块的特征距离分布中心较远。
- PatchCore: 建立一个正常图像特征的“记忆库”（Memory Bank）。检测时，将测试图像的特征与记忆库中的最邻近正常特征进行对比，距离越大，异常分数越高。
- CFLOW-AD: 结合了预训练特征和标准化流，在特征空间中对正常数据的分布进行密度估计。
优点： 性能SOTA，无需从头训练大型网络，高效且强大。
缺点： 依赖预训练模型的质量，记忆库方法可能消耗较多内存。

4. 自监督学习方法 (Self-Supervised Learning Methods)

思想： 通过为正常数据设计 pretext tasks（预训练任务），让模型学习数据的内在结构。常见的任务包括：图像修复（Inpainting）、旋转预测、拼图游戏（Jigsaw）等。模型在处理异常图像时，在这些任务上的表现会很差。
优点： 不依赖预训练模型，能从正常数据中学到更专属的特征。
缺点： 性能高度依赖于预训练任务的设计。