Fully Convolutional Networks for Semantic Segmentation ————全卷积网络 FCN论文解读

原创

已于 2022-03-14 08:38:55 修改 · 7k 阅读

于 2022-03-13 19:09:34 首次发布

全卷积网络（FCN）通过将全连接层转换为卷积层，实现了端到端的像素级语义分割任务。论文展示了FCN如何超过当时的最佳水平，其关键在于构建能够处理任意输入大小并产生相应输出的网络。通过调整现有的分类网络如AlexNet、VGG和GoogLeNet，将其转化为FCN并进行微调，结合跳跃连接以融合不同层次的特征，从而实现更精确的分割。FCN在PASCAL VOC、NYUDv2和SIFTFlow数据集上取得了最先进的分割结果，同时保持了高效的推理速度。

Fully Convolutional Networks for Semantic Segmentation

作者： Jonathan Long, Evan Shelhamer, Trevor Darrell;
出处： Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3431-3440

Abstract

卷积网络是强大的视觉模型，能产生层次分明的特征。我们证明，卷积网络本身通过端到端、像素到像素的训练，在语义分割方面超过了最先进的水平。关键是建立 "完全卷积 "网络，该网络接受任意大小的输入，并产生相应大小的输出，同时具有高效的推理和学习能力。本文定义并详细说明了全卷积网络的空间构造，解释了它们在空间密集型预测任务中的应用，并得出与先前模型的联系。本文将当代分类网络（AlexNet、VGG 和GoogLeNet）改编为全卷积网络，并通过精调将它们学到的表征转移到分割任务上。然后，设计了一个skip跳跃结构，将深层次、粗略的语义信息与来自浅层、细致的局部信息结合起来，以产生准确而详细的分割。本文的全卷积网络实现了对PASCAL VOC（相对于2012年62.2%的平均IU提高了20%）、NYUDv2和SIFT Flow的最先进的分割，而对于一个典型的图像，推理时间不到五分之一秒。