ESANet简介
ESANet (Efficient Scene Analysis Network)是由德国伊尔默瑙工业大学的研究人员开发的一个高效的RGB-D语义分割网络。它的主要目标是在保证分割精度的同时,实现实时的推理速度,使其能够应用于移动机器人等资源受限的场景中。
ESANet的设计理念是:通过精心设计的网络架构,在RGB-D数据上实现比单纯使用RGB图像更好的分割效果,同时保证在嵌入式设备上的实时性能。研究人员在论文中展示了ESANet在NYUv2、SUNRGB-D等常用室内数据集上达到了当前最好的性能,同时在NVIDIA Jetson AGX Xavier上能够达到近30FPS的帧率。

网络架构
ESANet的网络架构主要包含以下几个部分:
-
编码器:使用ResNet34作为骨干网络,采用Non-Bottleneck-1D (NBt1D)结构。
-
解码器:采用3个解码块,通道数递减。
-
上下文模块:使用金字塔池化模块(PPM)捕获多尺度上下文信息。
-
RGB-D融合:在编码器中使用SE-add模块融合RGB和深度信息。
-
上采样:采用可学习的3x3卷积+零填充进行上采样。
这种精心设计的架构能够在保

2051

被折叠的 条评论
为什么被折叠?



