百度飞浆图像分割课程笔记13：全景分割 UPSNet [CVPR 2019]

最新推荐文章于 2026-05-23 07:03:25 发布

原创最新推荐文章于 2026-05-23 07:03:25 发布 · 642 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

百度飞浆图像分割课程笔记

本文介绍了UPSNet，一种结合了可变形卷积的语义分割头和Mask R-CNN实例分割头的模型，用于解决全景分割问题。通过无参数全景头和像素级追踪，模型同时处理语义类别和实例识别，并针对漏检情况提供鲁棒解决方案。

Top-down：先做检测，再做分割

UPSNet：A Unified Panoptic Segmentation Network

论文链接： https://arxiv.org/pdf/1901.03784.pdf
代码链接： https://github.com/uber-research/UPSNet
在这里插入图片描述

设计一个基于可变形卷积的语义分割头和一个Mask R-CNN 的实例分割头，同时解决这两个子任务
引入无参数全景头，通过像素级追踪解决全景分割

1. Backbone
采用原始的 Mask R-CNN 主干作为卷积特征提取网络。该主干利用具有特征金字塔网络 (FPN)的深度残差网络 (ResNet) 。

2. Instance Segmentation Head
实例分割头遵循 Mask R-CNN 设计，具有边界框回归输出、分类输出和分割掩码输出。实例头的目标是生成可以更好地识别事物类的实例感知表示。最终，这些表示被传递到全景头，为每个实例的 logits 做出贡献。

3. Semantic Head
在这里插入图片描述
语义分割头的目标是在不区分实例的情况下分割所有语义类。它可以帮助改进实例分割，从而实现事物类的良好结果。语义头由一个基于可变形卷积 [9] 的子网络组成，该子网络将来自 FPN 的多尺度特征作为输入。特别地，我们使用 FPN 的 P2、P3、P4 和 P5 特征图，它们包含 256 个通道，分别是原始比例的 1/4、1/8、1/16 和 1/32。

这些特征图首先独立地通过相同的可变形卷积网络，然后被上采样到 1/4 比例。然后我们将它们连接起来并应用 1×1 卷积和 softmax 来预测语义类。

4. Panoptic segmentation head

目的：怎么把实例分割结果 $Y_{i}$ 和语义分割结果 $X_{stuff}$ , $X_{thing}$ 组合起来，构建全景分割map
全景分割map，每个pixel 属于哪个stuff类别（天空还是草地），属于哪个实例类别，第几个
在这里插入图片描述
其中 $X_{stuff}$ , $X_{thing}$ ：语义头中的 stuff（不可计数的）和 thing 类（可计数的）

①对于 $X_{stuff}$ ，构建成全景分割的map的方法
直接拼在在后面就可以了。（红色箭头）
在这里插入图片描述

②对于 $X_{thing}$ ，构建成全景分割的map的方法
$X_{mask_{i}}$ ：语义头中第i个实例的表示，也就是用bounding boxes的把bbox对应的空间区域也给获取
在这里插入图片描述
$Y_{i}$ ：第i个实例的 mask logits, $Y_{mask_{i}}$ = interpolate( $Y_{i}$ )

把 $Y_{i}$ resize或者padding成和 $X_{mask_{i}}$ 一样大小，然后相加，也就是说对于实例在全景map的结果，由语义分割头对应的空间区域与实例分割图对应的区域的两个概率map相加。（红色箭头）
$Z_{stuff+i} = X_{mask_{i}} + Y_{mask_{i}}$
在这里插入图片描述

③Panoptic segmentation head的关键设计

假设检测10个物体，但是漏检了2个物体。怎么保证模型不会把漏检测的类别当成stuff类。

专门设置了一个通道，为漏检的区域做一个不知道的类别的概率，保证模型不会把漏检测的类别当成stuff类。使得模型有个比较好的鲁棒能力。

假设10个物体的区域已经确定了，然后从语义分割图中，可以把object类别的分割图拿到。做一个减法。
$X_{mask}$ ： concate $X_{mask_{i}}$ 的所有mask
$Z_{unknow}$ ：缺少一些实例（本应该是object的区域，但没有检测出来）
$Z_{unknow} = max(X_{thing})-max(X_mask)$
在这里插入图片描述