MA-SAM：模态无关的SAM适应用于三维医学图像分割

原创已于 2026-06-09 20:17:45 修改 · 1k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

sam论文

于 2024-11-13 18:19:58 首次发布

代码模型：

动机：

这篇文章要解决的问题是如何将Segment Anything Model (SAM) 适应于医学图像分割任务。

如何有效地将SAM的预训练权重迁移到医学图像上，如何在细调过程中保留大部分预训练权重，以及如何在不使用提示的情况下提高医学图像分割的性能。

解决方案：

零样本性能（Zero-shot performance）：

是指一个模型在没有针对特定任务进行任何训练或微调的情况下，在该任务上的表现。换句话说，零样本学习（Zero-shot learning）的目标是让模型能够利用其先验知识和泛化能力，直接处理从未见过的数据类型和任务。

LoRA和Adapters等方法通过调整模型的部分权重来实现迁移学习，而不是完全重新训练模型。这种方法在处理自然图像时表现出色，因为自然图像通常可以很好地适应二维处理。然而，在医学图像分割中，仅仅依靠二维处理可能不足以捕捉到图像中的所有重要特征，从而导致分割结果不够精确。

掩码解码器的适应过程包括两个主要步骤:

1.全细调（Full Fine-tuning）：
- 这意味着对掩码解码器的所有参数进行全面的微调。细调的目的是使掩码解码器能够更好地适应特定的医学图像分割任务。通过在特定任务的数据集上进行细调，掩码解码器可以学习到更适用于该任务的权重和特征表示。

2.渐进上采样（Progressive Upsampling）

是一种在模型中逐步增加特征图分辨率的方法。在本文中，作者提出了对原始SAM（Segment Anything Model）的mask解码器进行改进，通过引入两个额外的转置卷积层来实现渐进上采样。

具体来说，渐进上采样的过程如下：

1. **初始下采样**：在SAM的图像编码器中，每个16×16的patch被嵌入为一个特征向量，这导致了输入特征的16×16倍的下采样。
2. **第一次上采样**：第一个转置卷积层将特征图上采样4倍。
3. **第二次上采样**：第二个转置卷积层再次将特征图上采样4倍。
4. **第三次上采样**：第三个转置卷积层继续将特征图上采样4倍。
5. **第四次上采样**：第四个转置卷积层将特征图上采样4倍，最终恢复到原始输入的分辨率。

通过这种逐步上采样的方法，渐进上采样能够有效地提高特征图的分辨率，从而在医学图像分割任务中更好地处理和识别小的解剖结构或病变区域。

这种方法相较于多层特征聚合，显示出更优越的效果，证明了其有效性和简单性。

就是先下采样16x16，然后再逐渐进行四次的4倍上采样。

3D适配器（3D Adapters）

在MA-SAM（Modality-Agnostic Segment Anything Model）框架中起着关键作用，用于有效地将三维（3D）信息融入到原本为二维（2D）图像设计的SAM模型中。以下是3D适配器的工作原理和作用细节：

1. 为什么需要3D适配器？
SAM最初是在二维图像上预训练的，而医学图像数据通常是三维的（例如CT、MRI扫描）或包含时间维度（例如手术视频）。直接将SAM应用于三维医学图像会导致性能下降，因为二维模型无法充分利用三维数据中的空间和时间信息。

2. 3D适配器的结构
每个3D适配器由以下几个部分组成：
- **归一化层（Normalization Layer）**：用于标准化输入特征图。
- **线性下投影层（Linear Down-projection Layer）**：将高维特征映射到一个更紧凑的低维表示，以减少新引入参数的数量。
- **3D卷积层（3D Convolutional Layer）**：核心部分，用于提取三维空间信息。这个卷积层的核大小为 $3 \times 1 \times 1$，专门用于提取第三维信息。
- **激活函数（Activation Layer）**：通常是非线性激活函数，如ReLU。
- **线性上投影层（Linear Up-projection Layer）**：将低维特征重新映射回原始维度，恢复特征图的尺寸。

3. 3D适配器的工作过程
- **输入处理**：对于网络输入，提取一组相邻的切片（例如，CT或MRI体积数据中的一组连续切片），并将它们合并到批处理维度中。这样可以将三维数据转换为二维格式，以便于后续处理。

```plaintext
输入: x = {x_{i-(N-1)/2}, ..., x_i, ..., x_{i+(N-1)/2}}_{i=1}^{B}
转换后: x ∈ R^{B×N×H×W} -> x ∈ R^{BN×H×W}
```

- **特征图重塑**：在进入3D卷积层之前，将特征图从 `[BN, H/16, W/16, c]` 重塑为 `[B, c, N, H/16, W/16]` 的形式，其中 `H/16` 和 `W/16` 是由于patch嵌入过程中的下采样得到的空间维度。

- **3D卷积操作**：通过3D卷积层，提取每个体素（voxel）及其邻域的空间信息。这一层是3D适配器的核心，它允许模型理解和利用三维数据中的空间关系。

- **输出处理**：3D卷积操作后，特征图被重新调整回原来的形状，以便进一步处理。

4. 在SAM架构中的位置
在SAM的每个变压器块（Transformer Block）中，作者在注意力层（MHSA，Multi-Head Self-Attention）前后各加入了一个3D适配器。这种配置通过两次3D卷积操作，有效地提取并整合了三维信息，显著提升了模型在处理三维医学图像时的性能。

5. 实验结果
实验结果表明，使用3D适配器的MA-SAM模型在多个医学图像分割任务中表现优异，特别是在处理具有复杂三维结构的器官和肿瘤时。例如，在CT多器官分割、MRI前列腺分割和手术场景分割任务中，MA-SAM模型显著优于其他现有的三维医学图像分割方法。

总结
3D适配器通过在SAM模型的变压器块中引入三维卷积操作，有效地将三维信息融入到二维模型中，从而显著提升了模型在处理三维医学图像时的性能。这种方法不仅保留了SAM模型的预训练优势，还显著增强了其在三维医学图像分割任务中的应用能力。