-
Notifications
You must be signed in to change notification settings - Fork 0
Jeffjeno/BLOS-BEV
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
III. 方法论 A. 概述 我们的BLOS-BEV框架由四个主要组件组成:BEV骨干网络、SD地图编码器、BEV融合模块和BEV解码器,如图2所示。该架构最终通过协同集成互补的输入模态,增强了感知范围和规划前瞻性。 B. BEV骨干网络 我们采用Lift-Splat-Shoot (LSS) [8]作为BEV特征提取器的基线,因为其具有轻量、高效且易于集成的特点。其他BEV架构(如HDMapNet [31])也可以在我们的框架内进行适配。LSS学习了每个像素的深度分布,并使用相机参数将锥体投影转换为BEV表示。车载相机以六个方向(前、前左、前右、后、后左、后右)提供模型周围视角的视觉输入,便于全面的情况感知。视图转换的输出是视觉BEV特征 ,其中  和  分别为BEV表示的分辨率和嵌入维度。随后,我们采用了一个四阶段的FPN [32]作为BEV编码器,进一步对BEV特征进行编码,每一阶段将特征图的高度和宽度减半,同时通道维度翻倍。我们选择第2阶段的特征  和第4阶段的特征  作为BEV融合模块的输入。 C. SD地图编码器 SD地图编码器主要基于卷积神经网络(CNN)架构,以位于自车位置的SD地图为输入。 地图数据:我们利用OpenStreetMap (OSM) [33],一个众包项目,提供免费的可编辑世界地图,作为先验的道路信息来源。OSM包含了丰富的地理特征信息,如道路、交通标志、建筑区域等。图3(a)展示了一个典型的OSM表示。 预处理:为了简化SD地图数据并消除无关地图元素对最终任务的影响,我们仅将OSM中的道路骨架栅格化。这样,SD地图编码器能够更加精确地专注于道路的拓扑结构。图3(b)展示了我们方法中栅格化后的OSM结果。 编码:受到OrienterNet [22]的启发,我们采用VGG [34]架构作为SD地图编码器的骨干网络。这生成了一个空间编码的地图表示 ,保留了OSM先验环境注释中提供的语义、位置和关系信息。为了使BEV特征在融合时的尺寸一致,我们从SD地图编码器的相应阶段选择了特征  和 ,作为BEV融合模块的输入。 D. BEV融合模块 BLOS-BEV的一个关键贡献是探索不同的融合方案,将视觉BEV特征和SD地图语义进行组合,以获得最佳的表示和性能。我们评估了三种常见的方法:加法、拼接和交叉注意力机制。我们的实验旨在确定最有效且高效的集成技术,以提升导航前瞻性。 由于BEV分支和SD地图分支分别提供不同尺寸的高分辨率和低分辨率特征,我们将对来自两个分支的相同尺寸特征应用相同的融合操作,最终得到两个多模态融合特征, 和 ,分别对应高分辨率和低分辨率特征。为简化符号表示,我们用  和  分别表示高分辨率或低分辨率的BEV特征( 或 )和SD地图特征( 或 )。类似地,我们将  和  统称为 。 • 逐元素加法:由于视觉BEV特征  和SD地图特征  形状相同,我们通过逐元素加法将它们融合(见图4(a))。融合后的特征  计算公式如下:  • 按通道拼接:我们还尝试将BEV和地图表示沿通道维度进行拼接,使用两个3×3卷积层来集成拼接后的特征并减少通道数(见图4(b))。通过拼接得到的融合特征  计算公式如下:  • 交叉注意力机制:此外,我们采用交叉注意力机制[35]来融合SD地图特征和视觉BEV特征。交叉注意力应用了跨模态门控,选择性地强调每个编码器在每个空间位置上最相关的特征。具体来说,我们使用  作为查询 , 作为键  和数值 (见图4(c))。我们选择这种设计的动机是,由于  编码了超出感知范围的先验信息,查询本地视觉特征  允许更好地推理视野外的道路结构。通过交叉注意力获得的融合特征  计算公式如下:    其中  是第i层的Q、K和V的投影矩阵, 是特征Q和K的通道维度。 E. BEV解码器与训练损失 在BEV解码器中,我们接收到高分辨率和低分辨率的融合特征  和 。我们首先将  上采样4倍,使其特征高度和宽度与  对齐。然后,我们将其与  沿通道维度拼接,经过两层卷积层和上采样,最终解码为一个大小为  的BEV分割图,其中N为语义类别的数量。 在训练阶段,我们对包含车道、道路、车道分隔线和道路分隔线的类别集合  使用二元交叉熵(BCE)损失函数:  其中, 和  分别是每个像素的语义预测值和真实标签。 好的,下面是你提供的论文部分的翻译: III. 方法论 A. 概述 我们的BLOS-BEV框架由四个主要组件组成:BEV骨干网络、SD地图编码器、BEV融合模块和BEV解码器,如图2所示。该架构最终通过协同集成互补的输入模态,增强了感知范围和规划前瞻性。 B. BEV骨干网络 我们采用Lift-Splat-Shoot (LSS) [8]作为BEV特征提取器的基线,因为其具有轻量、高效且易于集成的特点。其他BEV架构(如HDMapNet [31])也可以在我们的框架内进行适配。LSS学习了每个像素的深度分布,并使用相机参数将锥体投影转换为BEV表示。车载相机以六个方向(前、前左、前右、后、后左、后右)提供模型周围视角的视觉输入,便于全面的情况感知。视图转换的输出是视觉BEV特征 ,其中  和  分别为BEV表示的分辨率和嵌入维度。随后,我们采用了一个四阶段的FPN [32]作为BEV编码器,进一步对BEV特征进行编码,每一阶段将特征图的高度和宽度减半,同时通道维度翻倍。我们选择第2阶段的特征  和第4阶段的特征  作为BEV融合模块的输入。 C. SD地图编码器 SD地图编码器主要基于卷积神经网络(CNN)架构,以位于自车位置的SD地图为输入。 地图数据:我们利用OpenStreetMap (OSM) [33],一个众包项目,提供免费的可编辑世界地图,作为先验的道路信息来源。OSM包含了丰富的地理特征信息,如道路、交通标志、建筑区域等。图3(a)展示了一个典型的OSM表示。 预处理:为了简化SD地图数据并消除无关地图元素对最终任务的影响,我们仅将OSM中的道路骨架栅格化。这样,SD地图编码器能够更加精确地专注于道路的拓扑结构。图3(b)展示了我们方法中栅格化后的OSM结果。 编码:受到OrienterNet [22]的启发,我们采用VGG [34]架构作为SD地图编码器的骨干网络。这生成了一个空间编码的地图表示 ,保留了OSM先验环境注释中提供的语义、位置和关系信息。为了使BEV特征在融合时的尺寸一致,我们从SD地图编码器的相应阶段选择了特征  和 ,作为BEV融合模块的输入。 D. BEV融合模块 BLOS-BEV的一个关键贡献是探索不同的融合方案,将视觉BEV特征和SD地图语义进行组合,以获得最佳的表示和性能。我们评估了三种常见的方法:加法、拼接和交叉注意力机制。我们的实验旨在确定最有效且高效的集成技术,以提升导航前瞻性。 由于BEV分支和SD地图分支分别提供不同尺寸的高分辨率和低分辨率特征,我们将对来自两个分支的相同尺寸特征应用相同的融合操作,最终得到两个多模态融合特征, 和 ,分别对应高分辨率和低分辨率特征。为简化符号表示,我们用  和  分别表示高分辨率或低分辨率的BEV特征( 或 )和SD地图特征( 或 )。类似地,我们将  和  统称为 。 • 逐元素加法:由于视觉BEV特征  和SD地图特征  形状相同,我们通过逐元素加法将它们融合(见图4(a))。融合后的特征  计算公式如下:  • 按通道拼接:我们还尝试将BEV和地图表示沿通道维度进行拼接,使用两个3×3卷积层来集成拼接后的特征并减少通道数(见图4(b))。通过拼接得到的融合特征  计算公式如下:  • 交叉注意力机制:此外,我们采用交叉注意力机制[35]来融合SD地图特征和视觉BEV特征。交叉注意力应用了跨模态门控,选择性地强调每个编码器在每个空间位置上最相关的特征。具体来说,我们使用  作为查询 , 作为键  和数值 (见图4(c))。我们选择这种设计的动机是,由于  编码了超出感知范围的先验信息,查询本地视觉特征  允许更好地推理视野外的道路结构。通过交叉注意力获得的融合特征  计算公式如下:    其中  是第i层的Q、K和V的投影矩阵, 是特征Q和K的通道维度。 E. BEV解码器与训练损失 在BEV解码器中,我们接收到高分辨率和低分辨率的融合特征  和 。我们首先将  上采样4倍,使其特征高度和宽度与  对齐。然后,我们将其与  沿通道维度拼接,经过两层卷积层和上采样,最终解码为一个大小为  的BEV分割图,其中N为语义类别的数量。 在训练阶段,我们对包含车道、道路、车道分隔线和道路分隔线的类别集合  使用二元交叉熵(BCE)损失函数:  其中, 和  分别是每个像素的语义预测值和真实标签。
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published