2024年图像分割模型实战指南：从SAM到DINOv2的五大核心模型解析

原创

于 2026-02-16 01:16:46 发布 · 278 阅读

标签

1. 图像分割的2024新格局：从专用工具到通用“瑞士军刀”

如果你在2023年问我，想做一个图像分割项目该选哪个模型，我可能会根据你的具体任务给你列一个长长的清单：做医学图像？试试U-Net++。做街景语义分割？DeepLabv3+很稳。要区分图片里不同的人（实例分割）？Mask R-CNN或者YOLACT可能更合适。那时候，每个任务几乎都有一个对应的“专家”模型，选型本身就是个技术活。

但到了2024年，这个局面发生了根本性的变化。整个领域出现了一个非常明显的趋势：模型正在从“专才”走向“通才”。就像你工具箱里那把功能单一的螺丝刀，正在被一把集成了各种刀头、能应付大多数情况的瑞士军刀所取代。这个转变的核心驱动力，就是像Segment Anything Model (SAM) 和 Mask2Former 这样的“通用图像分割”模型的出现。它们不再只为某一个特定任务（语义、实例或全景分割）而设计，而是试图用一个统一的架构和训练方式，搞定所有类型的分割问题。

这背后其实是技术范式的迁移。以前，语义分割通常被看作“像素级分类”，模型输出一张每个像素都带有类别标签的图；而实例和全景分割则更接近“检测+分割”，模型需要输出一个个独立对象的掩码和类别。现在，以Transformer为基础的“掩膜分类”范式成了主流。简单理解，就是让模型直接预测一组（比如100个）二进制掩码以及每个掩码对应的类别。无论这个掩码代表的是一个“东西”（如天空、草地）还是一个“实物”（如一个人、一辆车），都统一处理。这种方法在理论上更优雅，在实践中也因为Transformer强大的特征学习能力而表现惊人。

所以，2024年我们谈论图像分割模型，重点不再是“哪个任务用哪个模型”，而是“这几个强大的通用模型，分别适合什么样的应用场景和开发条件”。下面，我就结合自己今年在几个实际项目中的使用和调优经验，带你深入解析五个最具代表性的核心模型，从最火爆的SAM到低调但强悍的DINOv2，给你一份实实在在的实战指南。

2. Segment Anything Model (SAM)：提示驱动的分割“万物”引擎

SAM在2023年的横空出世，确实让整个计算机视觉社区兴奋了一把。Meta AI放出这个模型和那个包含10亿掩码的SA-1B数据集时，口号就是“分割一切”。我第一时间就下载下来试了试，第一感觉是：这交互方式太友好了。

2.1 核心机制：三种提示与解码器魔法

SAM的强大，在于它把分割变成了一个“人机交互”或“程序交互”的过程。它不像传统模型那样，吃进一张图就直接吐出一堆分割结果。相反，它需要一个“提示”来告诉它：你到底想分割什么？这个提示可以是：

点：在物体上点一个或多个点（前景点或背景点）。
框：直接画一个矩形框把物体框住。
掩码：提供一个粗糙的掩码作为线索。
文本（在后续改进版本中）：直接用语言描述，比如“红色的汽车”。

模型的结构就是为这种交互设计的。一个强大的图像编码器（通常是ViT-Huge）先把整张图片编码成一个特征嵌入。你的提示（点、框）被一个提示编码器转换成对应的向量。然后，一个轻量级的掩码解码器（这才是关键）会像拼图一样，把图像特征和提示特征结合起来，在短短几十毫秒内，生成出对应的物体掩码。

我实测下来，对于轮廓清晰、特征明显的物体，SAM的表现堪称“魔法”。你随便点一下，它就能精准地抠出来。这对于需要快速标注数据、或者构建交互式图像编辑工具的场景，简直是神器。它的设计初衷就是为了成为一个强大的、可提示的基础模型。

2.2 实战代码：快速体验SAM的交互能力

现在用SAM已经非常方便了，这里我用基于PyTorch和官方代码库的方式，展示一个最简化的点提示分割示例：

import torch
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
# 假设你已经按照官方指南安装了segment-anything库
from segment_anything import sam_model_registry, SamPredictor

# 1. 加载模型（需要先下载模型权重，比如'sam_vit_h_4b8939.pth'）
sam_checkpoint = "./weights/sam_vit_h_4b8939.pth"
model_type = "vit_h"
device = "cuda" if torch.cuda.is_available() else "cpu"
sam = sam_model_registry[model_type](checkpoint=sam_checkpoint)
sam.to(device=device)

# 2. 创建预测器
predictor = SamPredictor(sam)

# 3. 加载并设置图像
image_path = "./your_image.jpg"
image = np.array(Image.open(image_path).convert("RGB"))
predictor.set_image(image) # 这一步会进行图像编码，耗时稍长

# 4. 准备提示：这里我们假设用户点击了图像中某个物体的中心点
# 输入格式为 (N, 2)， 标签1表示前景点，0表示背景点
input_point = np.array([[500, 375]])  # 图像上的坐标 (x, y)
input_label = np.array([1])           # 1 表示这是前景点

# 5. 预测掩码
masks, scores, logits = predictor.predict(
    point_coords=input_point,
    point_labels=input_label,
    multimask_output=True, # 输出多个候选掩码，用于处理歧义
)

# 6. 可视化结果
print(f"生成了 {len(masks)} 个候选掩码")
best_mask_idx = np.argmax(scores) # 选择置信度最高的掩码
best_mask = masks[best_mask_idx]

plt.figure(figsize=(10, 10))
plt.imshow(image)
plt.imshow(best_mask, alpha=0.5, cmap='jet') # 半透明叠加显示掩码
plt.scatter(input_point[:, 0], input_point[:, 1], c='red', s=200, marker='*')
plt.title(f"分割结果 (置信度: {scores[best_mask_idx]:.2f})")
plt.axis('off')
plt.show()

这段代码清晰地展示了SAM的工作流：设置图像 -> 输入点提示 -> 获得多个候选掩码。在实际应用中，你可以让用户选择最合适的那个，或者用框提示来获得更确定的结果。