一、文章主要内容总结
本文针对现有基于点云的3D目标检测模型多为室内或室外场景专用、缺乏统一架构的问题,提出了Uni3DETR——一种能同时适配室内和室外3D检测任务的统一Transformer架构。
核心背景
- 室内场景点云:目标密集、遮挡多、范围小;室外场景点云:目标稀疏、背景占比高、范围大。
- 现有方法:室内常用“分组-聚类-分类”模式,室外常用鸟瞰图(BEV)特征转换,架构差异大,泛化能力差。
模型架构与关键模块
- 3D特征提取器:融合3D稀疏卷积(避免室外大场景内存过载)和密集卷积(缓解室内目标中心特征缺失),纯3D架构避免高度压缩导致的信息丢失。
- 3D检测Transformer:以3D点为查询(query),通过点-体素交叉注意力机制适配3D数据特性,仅需少量解码层即可完成查询优化。
- 混合查询点(Mixture of Query Points):
- 可学习查询点(捕捉室外局部信息);
- 非可学习查询点(基于原始点云和体素化点采样,捕捉室内全局信息);
- 测试时新增随机查询点(弥补潜在漏检)。
- 解耦IoU(Decoupled IoU):将3D IoU分解为xy平面IoU和z轴IoU的平均值,避免梯度耦

订阅专栏 解锁全文
320

被折叠的 条评论
为什么被折叠?



