【计算机视觉】简述对LFT-Net（大场景点云分割）的理解

LFT-Net是一种点云分割网络，通过其LFT模块学习邻域位置特征并结合原始特征，利用三个MLP学习不同特征进行矩阵乘法得到权重参数。与传统的自注意力池不同，它采用模仿的自注意力池进行特征聚合。损失函数设计用于解决类别不平衡问题，提高稀有类别的分割精度。网络结构包括4层编码层和4层解码层，使用FPS采样。实验表明，全面考虑邻域信息和注意力机制能提升分割效果。

对于RandLA来说，它设计的LFA模块，解决了点云局部特征提取的问题，但是它只是学习了一个十维的位置特征向量，并将其和原始进行拼接，这种方法虽然学习到了邻域的局部特征，但是学习到的特征没经过细致的学习（例如通道间的不同、特征间的差异等等），直接利用自注意力池聚合了特征，所以导致分割的效果没有如今的高（其实已经很高了）。LFT-Net采取的思想和大部分点云分割思想一致，它和之前我讲述的一篇叫DLA-Net的很像，都是利用的Transformer的结构去学习，但是那篇文章利用的是特征之间的减法然后拼接学习的位置编码特征去进行softmax得到的权重参数，这篇LFT-Net是学习三个不同的特征然后进行矩阵的乘法得到的权重参数，而且它的聚合模块没采用大部分网络使用的自注意力池，它使用的是模仿的自注意力池，与它的自注意力学习类似，利用学习到的特征进行矩阵乘法进行聚合特征，它的损失函数模块后续说明。
在这里插入图片描述
上图是它的LFT模块，前半部分就是学习邻域位置特征（4维向量），结合原始特征，完成一个特征的拼接，然后利用三个MLP（α、β、γ）去学习三组不同的特征，分别进行矩阵乘法，这里我理解的是矩阵乘法，但是它解释的是dot product（点乘），不然它上面的图没办法出来，因为一个（K，dout）和（dout，K）只能矩阵乘法吧，这点欢迎大家来讨论，然后利用softmax组成权重参数，与上述得到的特征进行Add，它在后续采用了一个小型扩展残差模块，防止丢失一些特征。
在这里插入图片描述