论文笔记：Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional

最新推荐文章于 2022-05-02 22:06:46 发布

原创最新推荐文章于 2022-05-02 22:06:46 发布 · 1.2k 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

深度学习

计算机视觉

本文介绍了一种基于多尺度卷积神经网络的统一架构，用于深度估计、表面法线预测和语义分割。该模型在不同尺度上生成特征并进行预测，实现了从全局到局部的精细化，超越了传统的局部特征和全局一致性优化方法。在深度预测、表面法线估计和语义分割等多个任务上取得了优异的表现。

一、基本信息

标题：Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture
时间：2015
出版源：IEEE
论文领域：单目深度估计、深度学习、语义分割、CNN
引用格式：Eigen D, Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2650-2658.

二、研究背景

我们处理其中的三个任务:

深度预测
表面法线估计
语义分割

其中大多数使用局部特征对超分割区域进行分类，然后进行全局一致性优化，如CRF。
而本文，首先进行一致的全局预测，然后进行迭代的局部改进。通过这样做，局部网络可以意识到它们在全局中的位置，并且可以利用这些信息进行精确的预测。

与RNN（上一次局部预测结合更粗糙图像）相反，本文先全局粗糙预测，然后迭代局部改进。

三、创新点

我们的多尺度方法直接从输入图像生成像素图，不需要低层次的超像素或等高线，并且能够使用一系列用于增加分辨率的卷积网络堆栈来对齐许多图像细节。

这些系统大多使用ConvNets来寻找局部特征，或生成离散建议区域的描述符;相比之下，我们的网络同时使用局部和全局视图来预测各种输出类型。此外，虽然每种方法最多只能处理一到两个任务，但我们能够将我们的网络应用到三个不同的任务上。

相比之前，我们开发了一个更通用的网络，使用三个尺度的序列来生成特征和细化预测到更高的分辨率，我们应用于多个任务，包括表面法线估计和每像素语义标记。此外，我们还提高了深度预测的性能，说明了我们的增强是如何帮助改进所有任务的。

我们使用更通用的多尺度体系结构，可以自然地用于执行许多不同的任务，从而获得同样好的或更好的结果。

语义分割：我们的模型在最粗糙的尺度上有一个大的、全图像的视场
此外，我们不使用超像素或后期平滑——相反，我们的网络自己产生相当平滑的输出，允许我们采取一个简单的像素最大化。

网络结构

在这里插入图片描述

对于22的改进：

更深的网络
添加了第3层，使输出分辨率更高（输入的一半）
没有把第1层传递到第2层，而是通过多通道特征图

Scale 1: Full-Image View

在这里插入图片描述
基于一个大的、全图像视野预测整个图像区域的粗糙但空间变化的特征集，我们通过使用两个完全连接的层来实现这一点。
最后全连接层输出为64，缩小1/16。通过上采样 4，达到1/4。
由于顶层是完全连接的，输出中的每个空间位置都连接到所有图像特征，包含了一个非常大的视场。这种全视图连接对于深度和法线任务尤其重要。Scale1 基于AlexNet或VGG。

Scale 2: Predictions

在这里插入图片描述
通过结合更详细但更狭窄的图像和粗糙网络（Scale1）提供的全图像信息，在中等分辨率下产生预测。
我们通过将粗网络的特征图与来自单层卷积和池的特征图连接在一起来实现这一点。

Scale 3: Higher Resolution

在这里插入图片描述
将Scale2输出与从原始输入生成的特征图以更细的步长连接起来，从而整合了图像更详细的视图。进一步的改进使输出结果具有更高分辨率的细节，产生空间全局位置准确且局部比较详细的输出结果。最终的输出分辨率是网络输入的一半。

在这里插入图片描述

任务

识别深度

$d=D-D^{*}$
$\begin{aligned} L_{\text {deth}}\left(D, D^{*}\right)=\frac{1}{n} \sum_{i} d_{i}^{2}-\frac{1}{2 n^{2}}\left(\sum_{i} d_{i}\right)^{2} + \frac{1}{n} \sum_{i}\left[\left(\nabla_{x} d_{i}\right)^{2}+\left(\nabla_{y} d_{i}\right)^{2}\right] \end{aligned}$
将预测的图像梯度与地面真实值进行比较。
我们发现它确实能产生更好地跟随深度梯度的输出，并且在测量的l2性能中没有退化。

识别表面法线

$L_{\text {normals}}\left(N, N^{*}\right)=-\frac{1}{n} \sum_{j} N_{i} \cdot N_{i}^{*}=-\frac{1}{n} N \cdot N^{*}$
$N$ 是预测， $N^*$ 是真实法向量。
对于地面真值目标，通过将最小二乘平面拟合到点云中相邻的点集来从深度估计法线。

语义标签

像素交叉熵
$C_{i}=e^{z_{i}} / \sum_{c} e^{z_{i, c}}$
$L_{\text {semantic}}\left(C, C^{*}\right)=-\frac{1}{n} \sum_{i} C_{i}^{*} \log \left(C_{i}\right)$

四、实验结果

深度预测

在这里插入图片描述

VGG显著优于AlexNet

表面法向量预测

在这里插入图片描述
我们发现不需要为该数据SIFT集调整卷积内核大小或学习速率，只需直接传输NYUDepth使用的值;
这证明了我们的模型不仅可以适应不同的任务，还可以适应不同的数据。

语义分割

在这里插入图片描述

五、结论与思考

作者结论

深度、表面法线和语义标签一起提供了丰富的场景描述。我们提出了一种使用卷积网络的简单而快速的多尺度架构，它在所有三种模式上都具有出色的性能。
在我们探索的绝大多数基准上，这些模型都优于现有的方法。这是令人印象深刻的，因为这些方法中有许多是特定于单一模态的，而且通常比我们的算法更慢更复杂。因此，我们的模型为这三个任务提供了一个方便的新基线。为此，代码和训练模型可以在http://cs.nyu.edu/~deigen/dnl/找到