自动驾驶环境感知之基于深度学习的毫米波雷达感知算法

最新推荐文章于 2026-04-29 09:53:11 发布

原创

最新推荐文章于 2026-04-29 09:53:11 发布 · 3.8k 阅读

标签

#自动驾驶 #计算机视觉 #人工智能

本文探讨了自动驾驶环境感知中的毫米波雷达感知算法，重点讲述了数据表示、公开数据库及其应用。针对稀疏点云数据，利用深度学习进行处理和目标检测。此外，还介绍了直接处理Range-Azimuth-Doppler数据块的深度学习方法，如RAMP-CNN和RODNet。文章列举了多个公开数据库，如NuScenes、CARRADA等，用于毫米波雷达感知算法研究，并指出未来研究方向涉及多模态数据、多数据类型和大规模数据集。

1. 数据表示和公开数据库

1.1 数据表示

（1）基本的数据形式

ADC（数模转换）数据块：由Chirp采样N、每帧内Chirp个数M和天线K组成的三维数据块的中频信号
Range-Azimuth-Doppler数据块：将中频信号数据块分别在距离、速度、角度三个维度上进行FFT操作，得到距离-角度-速度表征的RAD数据块。其中，角度是指水平方向的旋转角度
稀疏点云：对RAD稠密数据块通过CFAR操作得到稀疏点云，点云中的每个点表示距离、速度、角度三个值

（2）折中的表示形式

执行两个维度的FFT
- Range-Azimuth-Chirp：保留Doppler维度，对中频数据块执行Range和Azimuth两个维度的FFT，得到Range-Azimuth-Chirp数据块。后面可采样深度神经网络的方法来处理Doppler维度，以得到速度信息。
- Range-Antenna-Doppler：保留Azimuth维度，对中频数据块执行Range和Doppler两个维度的FFT，得到Range-Antenna-Doppler数据块。
降低CFAR阈值，保留更多的点（比如5k - 10k），在数据量与信息量之间取得折中。

1.2 公开数据库

（1）单模态数据库

只包含毫米波雷达数据，相对来说应用范围较窄，只能进行毫米波雷达感知算法的研究
很难进行准确有效的标注

（2）多模态数据库

除了毫米波雷达数据外，还包括同步的图像和激光雷达数据，这样可通过这些辅助数据来进行标注，然后将标注信息转换到毫米波雷达坐标系下，这样就间接完成了对毫米波雷达的标注。
毫米波雷达数据：底层数据块或点云数据
NuScenes、CARRADA、SCORP、CRUW、SeeingThroughFog

（3）NuScenes

第一个公开发表的包含雷达数据的多模态数据库
140万帧图像数据（6个Camera，12Hz）
40万帧激光雷达数据（1个LiDAR，20Hz）
130万帧毫米波雷达数据（5个Radar，13Hz）
毫米波雷达参数：采样5个FMCW 77GHz的毫米波雷达，最大探测距离为250米，速度分辨率为0.03米/秒，它只包含稀疏的点云数据

（4）CARRADA

2020年由法国研究者发布
可认为是（非严格意义上）同步的图像和雷达数据（每种传感器一个）
- 30个序列，12666帧（约20分钟）
- 标注类别：汽车、行人、骑车的人
- 采集场景：封闭道路
数据格式：底层的RAD数据块
数据的具体信息：

（5）SCORP

2020年由加拿大、法国和德国的研究人员联合发布
可认为是（非严格意义上）同步的图像和雷达数据（每种传感器一个）
它是第一个包含数模转换（ADC）数据（比RAD更底层）的公开数据块
三种数据表示
- Sample-Chirp-Antenna数据块（ADC数据块）
- Range-Azimuth-Doppler数据块（RAD数据块）
- 点云（稀疏）
11个序列，3913帧（相对较小）
只有语义分割标注，没有目标级的标注
数据库的具体信息

（6）CRUW

2020年由华盛顿大学的研究人员发布
可认为是（非严格意义上）同步的图像和雷达数据（每种传感器两个）
相对大规模的，包含真实场景的数据库
包含物体级别的标注（物体框和分割mask）
数据格式：Range-Azimuth-Chirp数据块（保留速度维度，不对Doppler进行FFT，便于后期采样神经网络提取速度特征）
数据库的具体信息

（7）SeeingThroughFog

同步的可见光相机，热传感相机，激光雷达，毫米波雷达
毫米波雷达数据：稀疏点云
10000公理来自北欧的数据，包含超过10万个物体标注
包括了恶劣的天气环境，比如五天、雪天和雨天
验证在恶劣天气环境下，多传感器融合带来的性能提升

（8）未来发展方向

多模态数据：包括同步的图像、激光雷达、毫米波雷达等数据，用来进行多传感器融合的研究
多数据类型：包括ADC数据、RAD数据、点云数据等，以对比不同数据类型对算法带来的性能提升，为不同层次的算法研究和实际应用提供支持
360度视场：需要多个雷达配合完成，以满足多种自动驾驶应用的需求
大规模数据：对于自动驾驶来说，一般需要超过10万帧不同场景、不同天气条件下采集的数据
丰富的标注信息
- 物体级别：类别、位置、大小、方向、分割的mask
- 场景级别：语义信息，比如free space，occupied space等

2. 稀疏点云+深度学习

（1）毫米波雷达点云与激光雷达点云的区别

毫米波雷达点云比较稀疏，每帧只有上百个点；激光雷达点云较为稠密，每帧可达上万个点
激光雷达点云中的点有x, y, z三维空间坐标，而毫米波雷达在高度方向的感知能力较弱，因此通常所说的毫米波雷达点云只有x, y二维平面坐标

（2）稀疏毫米波雷达点云 + 深度学习的处理思路

直接处理点云
- 聚类得到目标物体的候选
- 深度神经网络进行特征提取和分类
点云转换为俯视图网格
- 点云量化为2D的网格结构
- 深度神经网络完成物体检测

（3）直接处理点云——候选生成 + 特征提取 + 候选分类（Deep Learning）

论文：Schumann, et al., Comparison of random forest and long short-term memory network performances in classification tasks using radar, 2017. From Daimler
通过点云聚类方法（DBSCAN）得到目标物体的候选
对每个聚类提取手工设计的特征，如位置、速度、反射强度等的统计值，共34维
对每个聚类进行分类
- 6个类别：轿车、公交车、自行车、行人、一组行人、垃圾桶
- 分类器：Random Forest vs LSTM
- LSTM的输入来自连续8帧 $(nτ)(n_{\tau})$ 的34维 $n_{feat})$ 特征向量，需要Tracker的辅助，来连接多帧的同一目标（输入为一个二维矩阵， $nτ=8,nfeat=34n_{\tau}=8,n_{feat}=34$ ，经过LSTM处理后特征维度提升到80，接着采样传统的全连接层 + softmax进行分类，选取概率值较大的作为当前特征向量的类别）

在这里插入图片描述

实验结果：通过LSTM和Random Forest的对比可知，LSTM并没有体现出很大的优势。具体原因分析是因为：序列长度较短，导致信息量不够；手工设计的特征限制了LSTM的学习能力。
该方法的缺点
- 聚类算法的鲁棒性不足，需要通过时序融合来进行改进
- 手工设计的特征信息量不足，限制了深度神经网络的学习能力

（4）直接处理点云——候选生成 + 特征提取（Deep Learning） + 候选分类（Deep Learning）

论文：Danzer, et al., 2D Car Detection in Radar Data with PointNets, 2019. From University of Ulm
整体结构
每个点生成一个候选
- 候选大小由先验知识确定：比如说若要进行车辆检测，则将候选大小设计为车辆的先验大小；若要进行多类别目标检测，则要估计多类别目标的先验大小在每个点处去生成多个候选来对应多个类别的目标
- 每个候选采样n个邻域点：每个点包括x坐标、y坐标、速度、反射强度4个特征
采用PointNet提取特征并对候选进行分类，在分类时对前景点根据类别设计 $n_s$ 个模板和 $n_h$

最低0.47元/天解锁文章