从DUSt3R到SLAM3R:单目稠密重建技术的范式转移与工程实践
1. 技术演进背景:稠密重建的"不可能三角"
在计算机视觉领域,稠密三维重建长期面临精度、完整性与实时性的"不可能三角"困境。传统多视角立体(MVS)方法虽能生成毫米级精度的模型,但依赖耗时的SfM预处理和离线优化;基于RGB-D传感器的方案受硬件限制难以普及;而纯视觉SLAM系统往往需要在重建质量与计算效率间艰难取舍。
2023年问世的DUSt3R首次证明了Transformer架构在双视图几何估计中的惊人潜力——仅需两帧RGB图像即可直接预测稠密点云与相对位姿,无需传统特征匹配与RANSAC流程。其核心突破在于:
- 全局注意力机制:通过交叉注意力层建立像素级跨视图关联
- 对称预测架构:同时输出两视图的点云预测结果
- 尺度感知损失:置信度加权的几何一致性约束
然而当我们将DUSt3R直接应用于视频流时,两个致命缺陷显现:
- 帧间关联断裂:独立处理每对图像导致轨迹漂移累积
- 全局一致缺失:缺乏跨窗口的坐标系统一机制
# DUSt3R典型推理流程(简化版)
def dust3r_inference(img1, img2):
# 特征提取
feat1 = encoder(img1) # (H,W,C)
feat2 = encoder(img2)
# 交叉注意力
x1 = decoder(feat1, feat2) # 视图1到视图2的映射
x2 = decoder(feat2, feat1) # 视图2到视图1的映射
# 点云预测
pts1 = head_pts(x1) # 视图1坐标系下的点云
pts2 = head_pts(x2) # 视图2坐标系下的点云
return pts1, pts2
2. SLAM3R的架构革新:双网络协同范式
SLAM3R通过**图像到点云(I2P)和局部到全局(L2W)**双网络设计,构建了端到端的视频流处理流水线。与DUSt3R的对比差异主要体现在:
| 模块 | DUSt3R | SLAM3R-I2P | SLAM3R-L2W |
|---|---|---|---|
| 输入 | 双视图图像对 | 滑动窗口(5-11帧) |

458

被折叠的 条评论
为什么被折叠?



