Fully Convolutional Networks for Semantic Segmentation
作者: Jonathan Long, Evan Shelhamer, Trevor Darrell;
出处: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015, pp. 3431-3440
Abstract
卷积网络是强大的视觉模型,能产生层次分明的特征。我们证明,卷积网络本身通过端到端、像素到像素的训练,在语义分割方面超过了最先进的水平。关键是建立 "完全卷积 "网络,该网络接受任意大小的输入,并产生相应大小的输出,同时具有高效的推理和学习能力。本文定义并详细说明了全卷积网络的空间构造,解释了它们在空间密集型预测任务中的应用,并得出与先前模型的联系。本文将当代分类网络(AlexNet、VGG 和GoogLeNet)改编为全卷积网络,并通过精调将它们学到的表征转移到分割任务上。然后,设计了一个skip跳跃结构,将深层次、粗略的语义信息与来自浅层、细致的局部信息结合起来,以产生准确而详细的分割。本文的全卷积网络实现了对PASCAL VOC(相对于2012年62.2%的平均IU提高了20%)、NYUDv2和SIFT Flow的最先进的分割,而对于一个典型的图像,推理时间不到五分之一秒。
一、Introduction
全卷积网络FCN
特点:1、FCN是将卷积网络的全连接层变为1*1卷积层,实现端到端
2、利用迁移学习进行微调,将成功的分类网络转移到密集预测
3、FCN使用跳跃连接,将全局和局部信息结合起来,

全卷积网络(FCN)通过将全连接层转换为卷积层,实现了端到端的像素级语义分割任务。论文展示了FCN如何超过当时的最佳水平,其关键在于构建能够处理任意输入大小并产生相应输出的网络。通过调整现有的分类网络如AlexNet、VGG和GoogLeNet,将其转化为FCN并进行微调,结合跳跃连接以融合不同层次的特征,从而实现更精确的分割。FCN在PASCAL VOC、NYUDv2和SIFTFlow数据集上取得了最先进的分割结果,同时保持了高效的推理速度。
1260

被折叠的 条评论
为什么被折叠?



