DeepLab系列

最新推荐文章于 2024-12-16 13:03:15 发布

原创

最新推荐文章于 2024-12-16 13:03:15 发布 · 1w 阅读

DeepLab V1: AFully Connected CRFs
- Dilated Conv & Receptive Field
- CRFs for accurate localization
Deeplab V2: astrous spatial pyramid pooling

DeepLab是Google团队一系列semantic image segmentation的paper，截止2018年，共4篇，奉为经典，下面是笔记。

DeepLab V1: AFully Connected CRFs

ICLR 2015.

Abstract：当前的图像分割CNN是根据classification这种high-level semantics改编的，但CNN有invariance特点，故会丢失localization信息，即无法对像素点精确定位语义（low-level semantics）。而本文提出的model，是CNN和PGM（概率图模型）的结合，对CNN最后一层加上fully connected CRFs，使得分割更精确。
取得的accuracy不详述了，另外通过network re-purposing和hole algorithm，使得处理时间很快。

这不禁让我产生疑问：
- high-level和low-level semantics区别在哪里？CNN的invariance是什么？平移不变性？那和high-level，hierarchical abstractions of the data什么关系？

解答：
- 所谓high low的界定是模糊的，大体上low-level是local，人肉眼能识别的最小单位，如十几个像素点构成的line,edge等，而很多个low-level features组成了high-level feature，给人以global info。故整个vision recognition是个hierarchical model，从识别许多个low-level，一层又一层，往上提高level，然后组成high-level。而CNN实现了这个流程，有很棒的high-level vision，但牺牲了low-level（因为Localization），故分割需要改进。https://www.zhihu.com/question/264702008
- 我突然理解了不变性对图像分割的制约。因为不变性是指图像的语义信息无论怎么平移，最终识别的分类是一样的，而这丢失了位置信息。
- 另外，卷积本身具有平移不变性，只不过是激活了不同区域的feature map，交换最终的fc层的元素，但不影响判断。pooling层也有不变性。（此处略）https://www.quora.com/How-is-a-convolutional-neural-network-able-to-learn-invariant-features

Introduction的结尾作者提到了模型的三大优点：speed, accuracy, simplicity.