SAM-2全面来袭，能够分割任意图像和视频，代码开源！

最新推荐文章于 2026-04-05 09:34:22 发布

原创

最新推荐文章于 2026-04-05 09:34:22 发布 · 9.7k 阅读

收录于

当前文章被以下社区和专栏收录：

SAM-2

论文链接：https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
代码仓库：https://github.com/facebookresearch/segment-anything-2
发表时间：2024.7.30

摘要：

在SAM之上加入记忆模块，相比于SAM，SAM2有以下提升：

支持任意长视频实时分割
实现zero-shot泛化
分割和追踪准确性提升
解决遮挡问题

SAM2的核心思路是将图像视作单帧视频

从SAM直接扩展至视频领域，同时支持图像和视频输入。
处理视频唯一的区别在于，模型需要依赖内存来回忆处理过的信息，以便在当前时间步长上准确分割对象。

进行交互式分割的过程主要分为两步：选择和细化

在第一帧中，用户通过点击来选择目标对象，SAM2根据点击自动将分割传播到后续帧，形成时空掩码。
如果SAM2在某些帧中丢失了目标对象，用户可以通过在新一帧中提供额外的提示来进行校正。
如果在第三帧中需要需要恢复对象，只需在该帧中点击即可。

方法

PVS task

Promptable Visual Segmentation (PVS) task ：提示视觉分割任务

把静态的图像分割任务扩展到动态的多帧图像即视频分割任务
PVS与静态图像和视频领域的多个任务相关。在图像上，SA任务可以被视为PVS的一个子集，其中视频被简化为单个帧。

模型结构

标签

#人工智能 #计算机视觉

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

GISer阿兴

关注关注

9
点赞
踩
56

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

SAM2预处理模型（一），适用于无法打开Github网页的同学

07-31

SAM2预处理模型（一），适用于无法打开Github网页的同学

SAM2预处理模型（二），适用于无法打开Github网页的同学

07-31

SAM2预处理模型（二），适用于无法打开Github网页的同学

1 条评论您还未登录，请先登录后发表或查看评论

【SAM2系列02】SAM2模型架构详解——Hiera编码器与Memory机制

weixin_52694742的博客

01-07

2451

本文详细解析了SAM2模型的架构设计，重点介绍了其四大核心模块：1）Hiera层级图像编码器，采用多尺度特征提取和局部注意力机制提升效率；2）Memory Attention机制，通过交叉注意力融合当前帧与历史记忆；3）Memory Bank系统，存储空间特征、对象指针和用户提示三类记忆；4）Mask Decoder解码器生成分割结果。模型采用流式处理架构，通过Hiera编码器替代ViT提升计算效率，并设计了多层Memory Attention实现时空信息融合。记忆系统采用滑动窗口和关键帧策略动态更新，为视

SAM2模型微调训练、验证和预测（Part1）

rachesherlock的博客

05-07

4142

要实现SAM2特定目标预测需要进行模型的微调。本文介绍了sam2模型的微调训练方法。包括环境配置、数据集准备和训练代码及损失曲线的绘制。

SAM 2环境配置与实战：从安装到图像分割应用

最新发布

weixin_42530570的博客

04-05

394

本文详细介绍了SAM 2（Segment Anything Model 2）的环境配置与实战应用，从硬件准备、Anaconda环境搭建到关键依赖安装，提供了完整的图像分割解决方案。通过实战演示和性能优化技巧，帮助开发者快速掌握SAM 2的应用，提升图像分割效率。

SAM 2 (Segment Anything )：图像与视频通用分割模型

AI工程化、开源分享、文档翻译、代码笔记

04-25

9408

SAM2无法分割一切？SAM2-Adapter：首次让SAM2适应一切！

CV_Autobot的博客

08-14

3096

作者| Cver 编辑| 极市平台点击下方卡片，关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『计算机视觉』技术交流群本文只做学术分享，如有侵权，联系删文导读SAM2-Adapter是一种新型适配方法，旨在充分利用Segment Anything 2（SAM2）模型的高级功能，以应对特定的下游分割任务。2023年，Meta提...

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

士多啤梨先生の博客

12-01

1802

SAM 2.1是由Meta（Facebook的母公司）推出的先进视觉分割模型，专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计，实现了实时视频处理，并引入了数据增强技术，提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。

SAM 2——视频和图像实时实例分割的全新开源模型

知来者逆的博客

08-21

3646

过去几年，人工智能领域在文本处理的基础人工智能方面取得了显著进步，这些进步改变了从客户服务到法律分析等各个行业。然而，在图像处理方面，我们才刚刚开始。视觉数据的复杂性以及训练模型以准确解释和分析图像的挑战带来了重大障碍。随着研究人员继续探索图像和视频的基础人工智能，人工智能图像处理的未来有望为医疗保健、自动驾驶汽车等领域带来创新。对象分割是计算机视觉中的一项关键任务，它涉及精确定位图像中与感兴趣对象相对应的像素。传统上，这涉及创建专门的 AI 模型，这需要广泛的基础设施和大量带注释的数据。

SAM2（segment anything 2）使用指南【1】：使用SAM2分割图片，根据不同提示信息分割图片

热门推荐

阿旭的博客

08-07

4万+

SAM2（segment anything 2）使用指南【1】：使用SAM2分割图片，根据不同提示信息分割图片

SAM 2——视频和图像实时实例分割的全新开源模

01-27

1081

SAM 2：图像与视频中的任意分割

gitblog_00628的博客

03-12

977

SAM 2（Segment Anything Model 2）是由Meta AI团队推出的一个开源视觉分割模型，它旨在解决图像和视频中的提示性视觉分割问题。SAM 2不仅继承了SAM（Segment Anything Model）在静态图像分割方面的强大能力，还扩展到了视频领域，将图像视为只有一个帧的视频进行处理。该模型采用了简单的Transformer架构，并引入了流式内存机制以支持实时视频处理

SAM 2:分割图像和视频中的任何内容

AI浩

09-08

2481

我们提出了“Segment Anything Model 2”（SAM 2），这是一种基础模型，旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎，该引擎通过用户交互改进模型和数据，以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构，适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面，我们观察到比先前方法更高的准确性，同时所需的交互次数减少了3倍。

Segment Anything Model 2：使用Ultralytics框架进行SAM2图像分割

FriendshipTang的博客

08-01

4927

Python、PyTorch、Ultralytics、SAM2、图像分割

SAM-SAM2-SAM3系列(三)：Segment Anything 3（SAM 3）技术详解，以及SAM3对 SAM2的升级点

m0_38097087的博客

10-11

5641

定位：延续 “可提示分割（promptable segmentation）”范式，把自然语言（文本）纳入一等公民的提示形式，面向图像与视频的对象分割与跨帧传播/跟踪。多方参会报道明确“支持 text-based prompts状态：Meta 已上线SAM 3 等候/登记页（需登录可见），并在多渠道提及“今年夏天/今夏推出/Coming soon”。目前未见公开论文/代码/权重。Meta AI+1延续：承接SAM 2的视频流式记忆与交互传播思想，在此基础上增加原生文本提示能力，目标是更少交互、更强可用性。

SAM2训练自己的数据集

AIcurator的博客

01-04

4551

SAM2（Segment Anything Model 2）是由Meta公司开发的一款先进的图像和视频分割模型，它是Segment Anything Model（SAM）的升级版本。与第一代相比，SAM2在多个方面实现了显著的改进，包括：SAM2的一个重要进展是它的能力从图像分割扩展到了视频分割，能够处理视频中的对象，而不仅仅是静态图像。：SAM2能够实时处理任意长度的视频，这在实际应用中非常有用，尤其是在需要快速响应的场景中。

Meta 的 SAM 2：可以分割任何内容（甚至视频）的人工智能

RA AI衍生者训练营的博客

08-28

1190

在不断发展的人工智能领域，Meta 刚刚投下了一颗重磅炸弹，它将彻底改变计算机视觉领域。Segment Anything Model 2（简称 SAM 2）问世了。这不仅仅是另一个增量更新；这是人工智能理解和与视觉内容交互能力的一次巨大飞跃。让我们深入了解是什么让 SAM 2 成为游戏规则改变者，以及为什么它可能成为计算机视觉领域的“GPT-4 时刻”。

SAM2: Segment Anything in Imagesand Videos

weixin_43571113的博客

04-15

1323

我们推出了Segment Anything Model 2（SAM 2），这是一个用于解决图像和视频中可提示视觉分割的基础模型。我们构建了一个数据引擎，通过用户交互来提升模型和数据质量，从而收集到迄今为止最大的视频分割数据集。我们的模型是一个简单的带有流式记忆的Transformer架构，用于实时视频处理。在我们的数据上训练的SAM 2在各种任务中表现出色。在视频分割方面，我们观察到更高的精度，且与以往方法相比，交互次数减少了3倍。

Meta发布SAM 2分割图片和视频；CatVTON实现简单高效的虚拟试穿；模拟人类思维的开源深度 AI 搜索引擎框架

haleycat的博客

07-31

1573

Meta发布SAM 2,是一种用于图像和视频的高效实时可提示分割模型。是由Meta的AI研究部门（FAIR）开发的一个基础模型，旨在解决图像和视频中的可提示（promptable）视觉分割问题。与前代模型SAM仅支持静态图像分割不同，SAM 2将图像视为只有一帧的视频，从而扩展了功能，能够处理实时视频分割任务。它采用了简单的Transformer架构，配合流式存储器，实现对视频的实时处理。此外，SAM 2通过一个模型参与的数据引擎收集了SA-V数据集，这是迄今为止最大的一个视频分割数据集。

从SAM到SAM3：一场基于提示的图像与视频分割技术的变革

m0_73832962的博客

10-22

1466

SAM到SAM3总结