计算机视觉-自动驾驶

一、3D重建

1.三维空间的点的3种存储方式

1.体素 (voxel)
2.网格 (grid)
3.3D点云



二、3D占用感知 (3D occupancy perception)

1.方法

在这里插入图片描述

(1)BEV

1.定义
鸟瞰图,bird’s-eye view (BEV)


2.优缺点
①优点:全景视角(多视角融合),减少盲区
②缺点:丢失了高度信息


3.分类
基于输入数据,将BEV感知研究主要分为三个部分:BEV Camera、BEV LiDAR 和 BEV Fusion
1.BEVCamera:表示仅有视觉或以视觉为中心的算法,用于从多个周围摄像机进行三维目标检测或分割

BEV Camrea中的代表之作是BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征并将提取的环视特征通过模型学习的方式转换到BEV 空间(模型去学习如何将特征从图像坐标系转换到 BEV 坐标系),从而实现 3D 目标检测和地图分割任务,并取得了 SOTA 的效果

2.BEVLiDAR:描述了点云输入的检测或分割任务

3.BEVFusion:描述了来自多个传感器输入的融合机制,例如摄像头、激光雷达、全球导航卫星系统、里程计,高清地图、CAN总线等


(2)Occ

Occ (Occupancy)通过体素网格,保留了丰富的几何信息,但是计算量非常大。因为存在大量的不含任何物体的自由空间区域导致冗余计算,稀疏性过高。

在这里插入图片描述


(3)TPV

TPV(Tri-Perspective View)引入三视角,但可能出现对象重叠问题。

计算量:BEV < Occ < TPV


2.应用

自动驾驶中基于占用的应用 3D 占用感知能够全面理解 3D 世界,并支持自动驾驶中的各种任务。现有的基于占用的应用包括分割、检测、动态感知、世界模型和自动驾驶算法框架。
①分割:语义占用感知本质上可以被视为 3D 语义分割任务。
②检测:OccupancyM3D [5] 和 SOGDet [6] 是两项基于占用的工作,实现了 3D 对象检测。OccupancyM3D 首先学习占用以增强 3D 特征,然后将其用于 3D 检测。SOGDet 开发了两个并发任务:语义占用预测和 3D 对象检测,同时训练这些任务以实现相互增强。
③动态感知:其目标是以预测动态对象的占用流的形式捕获周围环境中的动态对象及其运动。强监督的 Cam4DOcc [10] 和自监督的 LOF [160] 在占用流预测方面显示出了潜力。
④世界模型:它通过观察当前和历史数据来模拟和预测周围环境的未来状态 [161]。根据输入的观测数据,开创性的工作可以分为基于语义占用序列的世界模型(例如 OccWorld [162] 和 OccSora [163])、基于点云序列的世界模型(例如 SCSF [108]、UnO [164]、PCF [165])以及基于多摄像头图像序列的世界模型(例如 DriveWorld [7] 和 Cam4DOcc [10])。然而,这些工作在高质量的长期预测方面仍然表现不佳。
⑤自动驾驶算法框架:它将不同的传感器输入集成到统一的占用表示中,然后将占用表示应用于广泛的驾驶任务,例如 3D 对象检测、在线映射、多对象跟踪、运动预测等。



三、词汇表 Glossary

英文中文
benchmark基准
pipeline工作流程,类似flow
Data Pipeline数据管线

pipeline:从输入到输出的一系列处理步骤,如何把数据一步步地传递和转换,以达到最终目标

相机的位姿内参



四、论文的构成

1.作者 Author

2.数据集 Dataset

3.动机 Motivation

4.方法 Method

5.实验 Experiments

6.基准 BenchMark

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员爱德华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值