SAM-2
- 论文链接:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/
- 代码仓库:https://github.com/facebookresearch/segment-anything-2
- 发表时间:2024.7.30

摘要:
在SAM之上加入记忆模块,相比于SAM,SAM2有以下提升:
- 支持任意长视频实时分割
- 实现zero-shot泛化
- 分割和追踪准确性提升
- 解决遮挡问题
SAM2的核心思路是将图像视作单帧视频
- 从SAM直接扩展至视频领域,同时支持图像和视频输入。
- 处理视频唯一的区别在于,模型需要依赖内存来回忆处理过的信息,以便在当前时间步长上准确分割对象。
进行交互式分割的过程主要分为两步:选择和细化
- 在第一帧中,用户通过点击来选择目标对象,SAM2根据点击自动将分割传播到后续帧,形成时空掩码。
- 如果SAM2在某些帧中丢失了目标对象,用户可以通过在新一帧中提供额外的提示来进行校正。
- 如果在第三帧中需要需要恢复对象,只需在该帧中点击即可。

方法
PVS task
Promptable Visual Segmentation (PVS) task :提示视觉分割任务
- 把静态的图像分割任务扩展到动态的多帧图像即视频分割任务
- PVS与静态图像和视频领域的多个任务相关。在图像上,SA任务可以被视为PVS的一个子集,其中视频被简化为单个帧。


2451

被折叠的 条评论
为什么被折叠?



