【计算机视觉】简述对LFT-Net(大场景点云分割)的理解

LFT-Net是一种点云分割网络,通过其LFT模块学习邻域位置特征并结合原始特征,利用三个MLP学习不同特征进行矩阵乘法得到权重参数。与传统的自注意力池不同,它采用模仿的自注意力池进行特征聚合。损失函数设计用于解决类别不平衡问题,提高稀有类别的分割精度。网络结构包括4层编码层和4层解码层,使用FPS采样。实验表明,全面考虑邻域信息和注意力机制能提升分割效果。

对于RandLA来说,它设计的LFA模块,解决了点云局部特征提取的问题,但是它只是学习了一个十维的位置特征向量,并将其和原始进行拼接,这种方法虽然学习到了邻域的局部特征,但是学习到的特征没经过细致的学习(例如通道间的不同、特征间的差异等等),直接利用自注意力池聚合了特征,所以导致分割的效果没有如今的高(其实已经很高了)。LFT-Net采取的思想和大部分点云分割思想一致,它和之前我讲述的一篇叫DLA-Net的很像,都是利用的Transformer的结构去学习,但是那篇文章利用的是特征之间的减法然后拼接学习的位置编码特征去进行softmax得到的权重参数,这篇LFT-Net是学习三个不同的特征然后进行矩阵的乘法得到的权重参数,而且它的聚合模块没采用大部分网络使用的自注意力池,它使用的是模仿的自注意力池,与它的自注意力学习类似,利用学习到的特征进行矩阵乘法进行聚合特征,它的损失函数模块后续说明。
在这里插入图片描述
上图是它的LFT模块,前半部分就是学习邻域位置特征(4维向量),结合原始特征,完成一个特征的拼接,然后利用三个MLP(α、β、γ)去学习三组不同的特征,分别进行矩阵乘法,这里我理解的是矩阵乘法,但是它解释的是dot product(点乘),不然它上面的图没办法出来,因为一个(K,dout)和(dout,K)只能矩阵乘法吧,这点欢迎大家来讨论,然后利用softmax组成权重参数,与上述得到的特征进行Add,它在后续采用了一个小型扩展残差模块,防止丢失一些特征。
在这里插入图片描述
在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘正在努力

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值