GitHub - Jeffjeno/BLOS-BEV

Branches Tags
Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
model		model
utils		utils
BLOS-BEV- Navigation Map Enhanced Lane Segmentation Network,Beyond Line of Sight.pdf		BLOS-BEV- Navigation Map Enhanced Lane Segmentation Network,Beyond Line of Sight.pdf
README		README
main.py		main.py
Repository files navigation

III. 方法论

A. 概述
我们的BLOS-BEV框架由四个主要组件组成：BEV骨干网络、SD地图编码器、BEV融合模块和BEV解码器，如图2所示。该架构最终通过协同集成互补的输入模态，增强了感知范围和规划前瞻性。

B. BEV骨干网络
我们采用Lift-Splat-Shoot (LSS) [8]作为BEV特征提取器的基线，因为其具有轻量、高效且易于集成的特点。其他BEV架构（如HDMapNet [31]）也可以在我们的框架内进行适配。LSS学习了每个像素的深度分布，并使用相机参数将锥体投影转换为BEV表示。车载相机以六个方向（前、前左、前右、后、后左、后右）提供模型周围视角的视觉输入，便于全面的情况感知。视图转换的输出是视觉BEV特征 ，其中  和  分别为BEV表示的分辨率和嵌入维度。随后，我们采用了一个四阶段的FPN [32]作为BEV编码器，进一步对BEV特征进行编码，每一阶段将特征图的高度和宽度减半，同时通道维度翻倍。我们选择第2阶段的特征  和第4阶段的特征  作为BEV融合模块的输入。

C. SD地图编码器
SD地图编码器主要基于卷积神经网络（CNN）架构，以位于自车位置的SD地图为输入。

地图数据：我们利用OpenStreetMap (OSM) [33]，一个众包项目，提供免费的可编辑世界地图，作为先验的道路信息来源。OSM包含了丰富的地理特征信息，如道路、交通标志、建筑区域等。图3(a)展示了一个典型的OSM表示。

预处理：为了简化SD地图数据并消除无关地图元素对最终任务的影响，我们仅将OSM中的道路骨架栅格化。这样，SD地图编码器能够更加精确地专注于道路的拓扑结构。图3(b)展示了我们方法中栅格化后的OSM结果。

编码：受到OrienterNet [22]的启发，我们采用VGG [34]架构作为SD地图编码器的骨干网络。这生成了一个空间编码的地图表示 ，保留了OSM先验环境注释中提供的语义、位置和关系信息。为了使BEV特征在融合时的尺寸一致，我们从SD地图编码器的相应阶段选择了特征  和 ，作为BEV融合模块的输入。

D. BEV融合模块
BLOS-BEV的一个关键贡献是探索不同的融合方案，将视觉BEV特征和SD地图语义进行组合，以获得最佳的表示和性能。我们评估了三种常见的方法：加法、拼接和交叉注意力机制。我们的实验旨在确定最有效且高效的集成技术，以提升导航前瞻性。

由于BEV分支和SD地图分支分别提供不同尺寸的高分辨率和低分辨率特征，我们将对来自两个分支的相同尺寸特征应用相同的融合操作，最终得到两个多模态融合特征， 和 ，分别对应高分辨率和低分辨率特征。为简化符号表示，我们用  和  分别表示高分辨率或低分辨率的BEV特征（ 或 ）和SD地图特征（ 或 ）。类似地，我们将  和  统称为 。
	•	逐元素加法：由于视觉BEV特征  和SD地图特征  形状相同，我们通过逐元素加法将它们融合（见图4(a)）。融合后的特征  计算公式如下：

	•	按通道拼接：我们还尝试将BEV和地图表示沿通道维度进行拼接，使用两个3×3卷积层来集成拼接后的特征并减少通道数（见图4(b)）。通过拼接得到的融合特征  计算公式如下：

	•	交叉注意力机制：此外，我们采用交叉注意力机制[35]来融合SD地图特征和视觉BEV特征。交叉注意力应用了跨模态门控，选择性地强调每个编码器在每个空间位置上最相关的特征。具体来说，我们使用  作为查询 ， 作为键  和数值 （见图4(c)）。我们选择这种设计的动机是，由于  编码了超出感知范围的先验信息，查询本地视觉特征  允许更好地推理视野外的道路结构。通过交叉注意力获得的融合特征  计算公式如下：



其中  是第i层的Q、K和V的投影矩阵， 是特征Q和K的通道维度。

E. BEV解码器与训练损失
在BEV解码器中，我们接收到高分辨率和低分辨率的融合特征  和 。我们首先将  上采样4倍，使其特征高度和宽度与  对齐。然后，我们将其与  沿通道维度拼接，经过两层卷积层和上采样，最终解码为一个大小为  的BEV分割图，其中N为语义类别的数量。

在训练阶段，我们对包含车道、道路、车道分隔线和道路分隔线的类别集合  使用二元交叉熵（BCE）损失函数：

其中， 和  分别是每个像素的语义预测值和真实标签。

好的，下面是你提供的论文部分的翻译：

III. 方法论

A. 概述
我们的BLOS-BEV框架由四个主要组件组成：BEV骨干网络、SD地图编码器、BEV融合模块和BEV解码器，如图2所示。该架构最终通过协同集成互补的输入模态，增强了感知范围和规划前瞻性。

B. BEV骨干网络
我们采用Lift-Splat-Shoot (LSS) [8]作为BEV特征提取器的基线，因为其具有轻量、高效且易于集成的特点。其他BEV架构（如HDMapNet [31]）也可以在我们的框架内进行适配。LSS学习了每个像素的深度分布，并使用相机参数将锥体投影转换为BEV表示。车载相机以六个方向（前、前左、前右、后、后左、后右）提供模型周围视角的视觉输入，便于全面的情况感知。视图转换的输出是视觉BEV特征 ，其中  和  分别为BEV表示的分辨率和嵌入维度。随后，我们采用了一个四阶段的FPN [32]作为BEV编码器，进一步对BEV特征进行编码，每一阶段将特征图的高度和宽度减半，同时通道维度翻倍。我们选择第2阶段的特征  和第4阶段的特征  作为BEV融合模块的输入。

C. SD地图编码器
SD地图编码器主要基于卷积神经网络（CNN）架构，以位于自车位置的SD地图为输入。

地图数据：我们利用OpenStreetMap (OSM) [33]，一个众包项目，提供免费的可编辑世界地图，作为先验的道路信息来源。OSM包含了丰富的地理特征信息，如道路、交通标志、建筑区域等。图3(a)展示了一个典型的OSM表示。

预处理：为了简化SD地图数据并消除无关地图元素对最终任务的影响，我们仅将OSM中的道路骨架栅格化。这样，SD地图编码器能够更加精确地专注于道路的拓扑结构。图3(b)展示了我们方法中栅格化后的OSM结果。

编码：受到OrienterNet [22]的启发，我们采用VGG [34]架构作为SD地图编码器的骨干网络。这生成了一个空间编码的地图表示 ，保留了OSM先验环境注释中提供的语义、位置和关系信息。为了使BEV特征在融合时的尺寸一致，我们从SD地图编码器的相应阶段选择了特征  和 ，作为BEV融合模块的输入。

D. BEV融合模块
BLOS-BEV的一个关键贡献是探索不同的融合方案，将视觉BEV特征和SD地图语义进行组合，以获得最佳的表示和性能。我们评估了三种常见的方法：加法、拼接和交叉注意力机制。我们的实验旨在确定最有效且高效的集成技术，以提升导航前瞻性。

由于BEV分支和SD地图分支分别提供不同尺寸的高分辨率和低分辨率特征，我们将对来自两个分支的相同尺寸特征应用相同的融合操作，最终得到两个多模态融合特征， 和 ，分别对应高分辨率和低分辨率特征。为简化符号表示，我们用  和  分别表示高分辨率或低分辨率的BEV特征（ 或 ）和SD地图特征（ 或 ）。类似地，我们将  和  统称为 。
	•	逐元素加法：由于视觉BEV特征  和SD地图特征  形状相同，我们通过逐元素加法将它们融合（见图4(a)）。融合后的特征  计算公式如下：

	•	按通道拼接：我们还尝试将BEV和地图表示沿通道维度进行拼接，使用两个3×3卷积层来集成拼接后的特征并减少通道数（见图4(b)）。通过拼接得到的融合特征  计算公式如下：

	•	交叉注意力机制：此外，我们采用交叉注意力机制[35]来融合SD地图特征和视觉BEV特征。交叉注意力应用了跨模态门控，选择性地强调每个编码器在每个空间位置上最相关的特征。具体来说，我们使用  作为查询 ， 作为键  和数值 （见图4(c)）。我们选择这种设计的动机是，由于  编码了超出感知范围的先验信息，查询本地视觉特征  允许更好地推理视野外的道路结构。通过交叉注意力获得的融合特征  计算公式如下：



其中  是第i层的Q、K和V的投影矩阵， 是特征Q和K的通道维度。

E. BEV解码器与训练损失
在BEV解码器中，我们接收到高分辨率和低分辨率的融合特征  和 。我们首先将  上采样4倍，使其特征高度和宽度与  对齐。然后，我们将其与  沿通道维度拼接，经过两层卷积层和上采样，最终解码为一个大小为  的BEV分割图，其中N为语义类别的数量。

在训练阶段，我们对包含车道、道路、车道分隔线和道路分隔线的类别集合  使用二元交叉熵（BCE）损失函数：

其中， 和  分别是每个像素的语义预测值和真实标签。