基于DRL的高速匝道合流方法

最新推荐文章于 2026-06-15 21:07:21 发布

原创最新推荐文章于 2026-06-15 21:07:21 发布 · 1.1k 阅读 ·

CC 4.0 BY-SA版权

river

关注

分类：

人工智能

文章标签：

#自动驾驶 # 匝道合流 # 深度强化学习

一种基于深度强化学习的高速公路匝道合流自动驾驶方法

摘要

本文聚焦于自动驾驶汽车（AV）在去中心化非协作方式下通过平行式入口匝道进行高速公路合流的问题。由于道路环境高度动态且复杂，该问题具有挑战性。我们提出了一种基于深度强化学习的方法，该方法的核心是一个深度Q网络（DQN），以动态交通状态作为输入，输出包括纵向加速度（或减速度）和车道并道的动作。
该匝道汇入问题的总奖励由三部分组成：合流成功奖励、合流安全奖励以及合并效率奖励。为了模型的训练与测试，我们构建了包含真实驾驶参数的高速公路匝道合流仿真实验。实验结果表明，所提出的方法能够根据对交通环境的观测做出合理的并道决策。此外，我们将我们的方法与一种最先进的方法进行了对比，在复杂的高速公路平行式匝道并道场景中，通过完成具有挑战性的并道决策，验证了我们方法的优越性能。

关键词 自动驾驶汽车、高速公路平行式匝道、并道决策、强化学习、深度神经网络

引言

背景

自动驾驶汽车（AV）近年来受到了越来越多的关注。此类自动驾驶系统的成熟在提高道路安全性和效率、节约能源以及减轻环境污染方面发挥着重要作用。尽管车辆自动化在有限的驾驶环境中已取得巨大进展，但由于存在许多复杂的真实世界驾驶场景，将自动化水平提升至完全自主阶段仍然是一个极具挑战性的问题。例如，在高速公路场景中，众所周知，大多数高速公路拥堵是由于车辆在高速公路匝道附近合流活动引起的交通波动（或走走停停）造成的。在高速公路匝道合流场景中，车辆需要在合流车道（也称为加速车道）上调整位置和速度，以并入主路。实现这一目标对自动驾驶汽车提出了复杂的要求，因为它们在做出决策时，不仅需要考虑自身行为对未来驾驶状态的影响，还需要同时考虑各种驾驶行为（即激进或保守）的周围车辆（SV）的影响。

基于对实际驾驶数据的分析，匝道合流行为可分为自由、合作和强制（即非合作）三种类型。自由合流是指当目标车道前后车辆之间的间隙足够时，自车可以自由变道，且变道不会对交通流造成干扰。

示意图0

在协作式合流中，当后车观察到自车的合流意图时，会主动减速以让行可能的变道行为。相反，非协作式合流意味着目标车道上的车辆在面临潜在合流时不会主动调整其速度，而是被动响应以确保自身安全性。因此，对于自动驾驶汽车的驾驶决策而言，非合作式合流更具挑战性，因为自动驾驶汽车不仅要确保自身安全，还应减少对前方交通流的可能影响。如图1所示，实际高速公路匝道包括渐变式匝道和平行式匝道。渐变式匝道仅在匝道末端与主路连接，并具有已知的合流点，而平行式匝道则与主路平行，并具有未知的合流点，后者在实际中更为常见。在这种情况下，匝道上的车辆可在合流区域内的任意位置汇入主路，这为车辆提供了更大的灵活性，但也对驾驶决策提出了更高要求。

示意图1

在图2中，红色自动驾驶车辆正通过平行式入口匝道驶向高速公路。在合流过程中，除了要遵守车辆动力学约束和交通规则外，自动驾驶车辆还需要考虑其他因素，例如合流成功、安全性和效率。更具体地说，自动驾驶车辆需要在确保驾驶安全和合理性的前提下（即无碰撞且对目标车道上的前方交通流影响可忽略），尽快完成合流任务。因此，该并道过程是一个多目标问题，且与动态道路环境密切相关。例如，红色自动驾驶汽车可以选择在目标车道上超车最近的绿色周边车辆，但这需要更高的行驶速度，同时由于接近合流车道终点，存在较高的碰撞风险和合流失败风险。
或者，红色自动驾驶车辆也可以选择减速以让行最近的周边车辆，然后并入目标车道。但如果自动驾驶车辆的合流速度过低，则可能会干扰前方来车的正常行驶速度。

摘要

据我们所知，以往的研究尚未针对平行式匝道和非协作式合流场景开发基于深度强化学习的控制方法，这留下了一个极具挑战性 yet 有意义的问题。因此，本文应用DRL方法来解决这一复杂且具有挑战性的匝道汇入问题。该方法的整体结构如图3所示。自动驾驶车辆可通过车载传感器（例如摄像头和雷达）获取社会车辆（SVs）的状态。我们方法的核心是一个深度Q网络（DQN），用于在考虑多目标（例如）的情况下做出驾驶决策。

示意图2

合流成功、安全性（即无碰撞或危险情况）以及效率。
合并安全奖励的定义引入了安全距离，并以不同的合流行为（如合作或非合作行为）作为参考，以提高选择更优合并行为的能力，并确保车辆之间保持安全的最小距离。我们方法的有效性体现在碰撞/危险率、奖励、合并后前后车辆之间的相对距离（即安全合流行为的一个重要指标）以及在不同交通场景下的泛化能力方面。当前基于深度强化学习的研究在匝道合流上均已集中于渐变式匝道场景，即合流的目的地为固定区域。因此，在不影响最先进的基于深度强化学习的方法性能的前提下，我们修改了该方法的奖励定义，使其适用于平行式匝道合流场景中的决策。实验对比结果表明，我们的方法在确保交通安全、提升交通效率方面优于这一最先进的方法。
本研究的贡献总结如下：
据我们所知，这是首个在平行式匝道和非协作式合流设置下，利用基于深度强化学习的方法解决高度复杂且动态的匝道汇入问题的研究。
提出了一种具有良好的泛化能力的新型基于深度强化学习的方法，用于在高度动态交通条件下考虑实际中常见的多个重要目标（如合流成功、安全性及效率）的智能合并决策。其中，通过引入不同合并行为下的安全距离来定义合并安全奖励，从而提升合流性能并保证最小安全距离。
通过精心设计的仿真实验，我们证明了我们的方法在确保交通安全和提高交通效率方面优于在确保交通安全和提高交通效率方面的最先进的方法。
本文其余部分组织如下：深度强化学习的背景、问题表述以及我们方法的细节分别在第二节中进行描述。仿真实验在第三节中给出。第四节分析了结果。最后，在第五节中给出了结论和未来工作。

方法

强化学习背景

强化学习作为一种机器学习技术，能够通过与环境交互来学习策略，以获得最大累积回报。目标问题通常被建模为马尔可夫决策过程（MDP）。此处建立元组 S、A、T、 R、 gh i 来求解该 MDP，其中 S 为状态集合，A 为动作集合，T :S3A ! S0 为状态转移概率函数，R 为奖励函数，g 2 0, 1 ½ 为折现因子。强化学习的目标是最大化如下定义的未来折现回报：
$$ R_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} $$
其中 $ r_{t+k} $ 是在步骤 $ t+k $ 的奖励。
Q学习，一种广泛使用的强化学习算法，通过探索来学习最优的动作价值函数，该函数定义为
$$ Q^ (s, a) = \max_{\pi} \mathbb{E} [R_t | s_t = s, a_t = a, \pi] $$
动作价值函数由贝尔曼方程决定，其定义如下，
$$ Q(s, a) = \mathbb{E} [r + \gamma \max_{a’} Q(s’, a’) | s, a] $$
DQN 是 Q学习与深度学习的结合，用于在高维状态空间中近似动作价值函数，即 $ Q(s,a; \theta) \approx Q^ (s,a) $。为了最小化贝尔曼方程的误差，通过随机梯度下降对具有权重 $\theta_i$ 的网络进行训练。
在深度Q网络（DQN）中应用经验回放来存储经验数据。它还可以通过随机提取数据来更新参数，从而消除数据之间的相关性。损失函数描述如下：
$$ L_i(\theta_i) = \mathbb{E} {M {replay}} [(r + \gamma \max_{a’} Q(s’, a’; \theta_i) - Q(s, a; \theta_i))^2] $$
其中i为迭代次数，$ M_{replay} $是经验回放的大小。
为了使学习过程更加稳健，深度Q网络的参数会根据目标网络的最新训练结果进行定期更新，并在一定的迭代周期内保持不变。

问题表述

问题描述

为高速公路匝道合流设计的基于DRL的框架适用于以下场景：一辆自动驾驶车辆（即自车）试图从高速公路匝道汇入主路的最右侧目标车道。根据对周围环境的观测，自动驾驶车辆调整自身的位置和速度，以控制车速，并在合流区域内的任意合适位置选择适当时机安全、平稳地并入目标车道。在合流过程中，始终遵守安全性、舒适性、运动学与动力学约束以及交通规则。
基于DRL的框架设计基于以下假设：（1）自动驾驶车辆能够通过车载传感器获取可检测范围内环境的状态。（2）在合流车道上，受控合流自动驾驶车辆前方没有其他汇入车辆。（3）社会车辆不会进行变道。（4）目标车道上的周边车辆以非协作方式运行。（5）基于深度强化学习的方法输出的离散动作由底层控制器实现。

状态

感知状态S可以从传感器获得。由于传感器的检测范围有限，因此它被限制在以自动驾驶车辆为中心的 $[-d_{back}, d_{front}]$ 的一定范围内。
$$ S = {(x_i, y_i, v_{xi}, v_y)}_{i \in e, 1,…, k} $$
其中，x 为纵向位置，y 为车道位置，$ v_x $ 表示纵向速度，$ v_y $ 表示横向速度，k 表示自动驾驶车辆检测范围内智能体的总数。

动作

在本研究中，动作空间A定义如下，用于在每个时间步长控制合流的自动驾驶车辆：
$$ A = (a_{xe}, a_{ye}) $$
其中$ a_{xe} $和$ a_{ye} $分别表示自车的纵向加速度和横向加速度。
自车在下一个时间步长后的位置和速度可根据公(6)按如下方式计算：
$$ x_e(t + \Delta t) = x_e(t) + v_{xe}(t)\Delta t + 0.5a_{xe} \Delta t^2 $$
$$ v_{xe}(t + \Delta t) = v_{xe}(t) + a_{xe} \Delta t $$
$$ y_e(t + \Delta t) = y_e(t) + v_{ye}(t)\Delta t + 0.5a_{ye} \Delta t^2 $$
时间步长 $ \Delta t $（设定为0.2s）的选择是在计算速度和驾驶平顺性之间进行权衡的结果。如果时间步长设置过长，自车可能无法及时应对复杂交通环境中的变化，从而降低合流成功率以及控制性能。如果时间步长设置过短，可能会导致较大的计算负担，进而影响控制方法的实时性。

奖励

奖励函数用于根据当前状态输入来评估动作选择。因此，合理设计奖励函数对于控制自动驾驶车辆至关重要。在本研究中，匝道合流的总奖励由三部分组成：高速公路匝道汇入成功奖励 $ R_m $、合并安全奖励 $ R_s $ 和合并效率奖励 $ R_e $。
自动驾驶车辆在目标车道上成功合流后将获得高速公路匝道汇入合流成功奖励$ R_m $，其定义如下：
$$ R_m = \begin{cases}
r_p, & y_e = 0 \
0, & \text{else}
\end{cases} $$
其中，$ r_p \in \mathbb{R}^+ $是合流到主路的奖励值，$ y_e = 0 $表示自车已完成从合流车道到目标车道的变道。
驾驶安全是合流过程中最重要的因素。合并安全奖励$ R_s $用于指导自动驾驶车辆学习如何安全驾驶，其中包括对与其他周围车辆发生碰撞或选择危险间隙的惩罚。总可接受安全距离的定义基于匝道车辆加速度以及平均密度。估计的总间隙定义如下：
$$ \ln(g_{total}) = 4.149 + 0.1413M_{free} - 0.3243DT_{agr}3M_{forced} - 0.2623DT_{agr}3M_{coop} - 0.4453l/D - 0.163den + 0.013a_e $$
其中，$ g_{total} $为总可接受安全间距（m），$ M_{free} $表示自由合流虚拟变量（若是自由合流则为1，否则为0），$ DT_{agr} $表示激进驾驶者类型虚拟变量（若匝道驾驶者为激进型则为1，否则为0），$ M_{forced} $表示非协作式合流虚拟变量（若是非协作式合流则为1，否则为0），$ M_{coop} $表示协作式合流虚拟变量（若是协作式合流则为1，否则为0）， $ l/D $为汇入中的自动驾驶汽车所使用的合流车道比例， $ den $为检测范围内的高速公路平均密度。
从公式(9)可以看出，自由合流的可接受间隙大于协作式合流或非协作式合流的情况。激进型驾驶员比保守型驾驶员能够在更小的间隙下完成目标车道的合流。此外，激进型驾驶员在进行非协作式合流时能够接受比协作式合流更小的间隙。如果自动驾驶车辆无法在合流车道终点前并入主路，则必须减速甚至完全停止，等待合适的合流时机，这不可避免地会导致匝道上的拥堵，如果自动驾驶车辆的速度远低于目标车道的速度，则可能会增加风险。因此，当自动驾驶车辆接近合流车道终点时，相应的可接受合车间隙会减小，以提高成功合流的概率。总间隙随着自动驾驶车辆加速度的增加而增大，表明自动驾驶车辆已加速接近期望速度。最后，总间隙随着平均密度的增加而减小，因为在交通密集场景下，所有驾驶员都能接受更小的间隙。综上所述，合并安全奖励$ R_s $的定义如下：
$$ R_s = \begin{cases}
p_{col}, & \text{if } d_h < s_0 \text{ or } d_r < s_0 \
p_{dan}, & \text{else if } d_g < \lambda g_{total} \
- dDv_k / v_k, & \text{else}
\end{cases} $$
其中，$ p_{col} $、$ p_{dan} \in \mathbb{R^-} $ 分别表示发生碰撞和选择危险间隙的惩罚，且满足 $ |p_{col}| $、$ |p_{dan}| $。$ d_h $ 表示自动驾驶车辆的车头时距，而 $ d_r $ 表示自动驾驶车辆与后方社会车辆之间的车尾间距。$ s_0 $ 是车辆之间可接受的最小距离。$ d_g $ 表示汇入中的自动驾驶汽车所选择的目标车道上前后社会车辆之间的间隙距离。$ \lambda $是总可接受间隙的折现因子（设为 0.8）。$ g_{total} $ 是基于实地观测总可接受间隙的间隙接受模型计算出的总间隙距离。$ v_k $ 表示车辆速度，而 $ Dv_k $ 表示速度波动。$ d $ 表示速度变化的权重系数（设为 2）。
根据公式(10)，如果自动驾驶车辆与前后车辆在合流后的距离小于最小可接受距离，则被视为发生碰撞，并返回较大的惩罚值。如果合流后未发生碰撞，则评估在目标车道上选择的合流间隙是否符合间隙接受模型估计的折现后的可接受距离。若不符合，则返回一个小于碰撞惩罚值的数值。我们降低了对危险状况的判定标准，以便为该方法根据环境合理控制汇入中的自动驾驶汽车的位置和速度留出更多余量。在其他情况下，如果合并操作影响了后方社会车辆的速度，则会反馈一定的惩罚值；否则，返回零值。
根据强化学习奖励函数中折现因子的定义，延迟合流行为的奖励值将被降低。为了平衡算法的学习效果，将折现因子减小到过小的值是不合适的。并且仅依靠试错过程中折现因子的作用，不足以使算法学习到提前合流的重要性。因此，引入合并效率奖励 $ R_e $ 来惩罚延迟合流操作。
$$ R_e = - x(D - m_e) $$
其中，$ x $是合并效率奖励的权重系数（设为 0.03）， $ D $是合流车道的长度，$ m_e $ 是自动驾驶车辆距合流车道终点的距离。
总之，总奖励是上述各项奖励的加权和，即
$$ R = v_1R_m + v_2R_s + v_3R_e $$
其中$ v_1 $、$ v_2 $和$ v_3 $分别是合并成功奖励、合并安全奖励和合并效率奖励的权重系数。

网络结构和训练细节

示意图3

图4展示了深度Q网络（DQN）的结构和参数，包括一个全连接层和三个卷积层。每个卷积神经网络（ CNN）之后都有批量归一化和修正线性单元（ ReLU）激活函数。网络的输入是定义状态，输出是动作。
表1列出了DRL的求解器参数。我们采用Adam算法来更新网络。学习率由h定义。从经验回放缓存中随机采样的批次大小小于$ M_{max} $。为了确保算法的稳定性，每隔$ N_{update} $回合将在线参数复制一次以更新目标网络。

参数	值
合流成功奖励，$ r_p $	2.0
碰撞惩罚，$ p_{col} $	-1.5
危险惩罚，$ p_{dan} $	-1.0
折扣因子，$ \gamma $	0.999
经验回放缓存大小，$ M_{replay} $	100,000
学习率，$ h $	0.001
最大批量大小 , $ M_{max} $	128
目标网络更新频率，$ N_{update} $	10

表1. 深度强化学习的求解器参数。

仿真实验

仿真环境

下一代仿真系统（NGSIM）数据集和highD数据集是两个最常用的高速公路驾驶数据集。这两个数据集之间的一个主要区别是车辆速度的范围。与NGSIM数据集（车辆速度范围主要分布在(5, 16) m/s内）相比， highD数据集包含更多高速（(18, 35) m/s）的数据样本。考虑到本研究关注高车速条件下的高速公路匝道合流场景，我们基于highD数据集中的参数（如交通密度、速度、距离间隔、车头间距（DHW）、换道持续时间、车头时距（THW）等）初始化仿真环境。
仿真器中的车辆运动满足运动学和动力学约束。实验参数列于表2中。

参数	值
合流车道长度，D	200（米）
车道宽度，w	4（米）
传感器检测范围， $ [-d_{back}, d_{front}] $	(-100, 200)（米）
期望速度，$ v_o $	20（米/秒）
安全车头时距，$ T_h $	(1，2)（秒）
初始速度，$ v_{ini} $	(18, 22) (m/s)
速度范围	(14, 30) (m/s)
检测范围内的交通密度，den	6
SV之间的距离间隙，d	(20, 60) (m)
最小距离，$ s_0 $	2（米）
车辆长度，l	4（米）
纵向加速度，$ a_x $	(-4, 2)（米/秒²）
侧向加速度，$ a_y $	±0.64 (m/s²)
高速公路服务水平	1、2、3级

表2. 实验参数。

仿真实验设计

如图2所示，本研究的场景考虑了高速公路的合流车道以及最右侧目标车道。自车在确保成功合流的前提下，应尽可能提高效率，同时满足动力学、交通规则和安全性的要求。实验环境的参数参考表2。假设在合流车道上，受控的匝道合流自动驾驶车辆（AV）前方没有其他匝道合流车辆，主路上的社会车辆（SVs）不会进行变道。自动驾驶车辆在初始位置（合流车道起点）初始化后，开始观测高速公路上的社会车辆，并在到达合流车道终点前开始做出合流决策。位于高速公路目标车道上的社会车辆（SVs）以初始速度$ v_{ini} $和间距d随机生成。自动驾驶车辆只能感知社会车辆的位置和速度等状态信息，无法观测社会车辆所采取的控制动作。在并道过程中，自动驾驶车辆的横向加速度绝对值保持不变，但符号变化一次，即其横向速度先以固定值增加，再以相同固定值减小，最终到达目标车道中心线时降为零。通过这种方式可生成一条可行且平滑的变道轨迹。在测试过程中，社会车辆根据真实数据集初始化其位置和速度，并在自动驾驶车辆完成合流前回放真实轨迹。采用智能驾驶员模型（IDM）定义社会车辆的驾驶策略和纵向运动行为。也就是说，如果合流后的最小间隙无法满足安全性要求，社会车辆将根据IDM模型减速避撞。实验环境在配备4.0GHz Intel Core i7处理器和16 GB内存的计算机上使用Python实现。
在仿真实验中采用以下指标来展示我们提出的方法的性能：
- 整体训练性能，通过碰撞率、危险率、奖励以及并道后的车头间距/后距来体现。碰撞率、危险率和并道后的车头间距/后距可用于描述我们方法在训练过程中的安全性能。奖励值可以反映在合流成功、安全性和效率方面的整体训练表现。
- 通过车辆轨迹和速度的变化所体现的控制有效性。我们方法的有效性可以通过展示车辆的轨迹和速度来验证。
- 不同交通密度下的测试奖励所体现的泛化性能。该指标能够反映我们的方法在不同交通条件下的适应性。
- 性能比较（我们方法与最先进的方法之间的比较），通过并道车辆和社会车辆（SVs）的平均速度、合流后平均最小车头时距/车尾间距，以及典型示例中车辆轨迹和速度的对比来展示。通过对不同方法在这些指标上的比较，可以证明我们的方法在安全性和效率方面的优势。
第一个指标可以展示我们基于深度强化学习的方法的训练性能，而其余指标可以展示我们方法的测试有效性及其相较于最先进的方法的优势。因此，我们方法的优越性能可以通过这些指标的实验结果得到验证。

结果分析

根据前一节提到的仿真实验设计，我们首先分析了所提出方法的训练性能、控制有效性以及泛化能力。然后通过与最先进的方法进行比较，证明了我们方法的优越性能。

我们方法的总体训练性能

提出该方法的目的是基于自动驾驶车辆对环境的观测，做出合理且安全的合流决策，以确保其能够尽快并入高速公路。碰撞率、危险率和奖励用于描述我们方法的训练性能。奖励函数的权重系数选择为 $ v_1=0.3 $、$ v_2=0.6 $、$ v_3=0.1 $。这些权重系数可以进一步通过真实交通数据进行手动调整或校准，这将留作我们的未来工作。碰撞率或危险率定义为连续五个回合中发生碰撞或危险情况所占的比例，如公式（13）所示。
$$ rate = \frac{\sum_{n=5}^{n} I_n(\text{collision or dangerous} = \text{True})}{5} \quad (n=5, 6, \ldots) $$
其中 $ I_n $ 表示自车在第 $ n $ 个回合中的安全状况，1 表示碰撞/危险，0 表示安全性。
由于仿真环境的随机性以及周围车辆行为的不确定性，该方法在训练初期的表现较差。随着训练的进行，碰撞率和危险率逐渐降低，而奖励值逐步提高。
从图5(a)和(b)可以看出，碰撞率在经过420个训练回合后趋于稳定，并在555个训练回合后达到完全稳定。自车是否处于危险情况取决于速度控制以及自车与前后车辆之间的距离。由于多种因素影响该危险情况，危险率的下降速度比碰撞率更慢，但最终在615个训练回合后趋于稳定。从图5(c)也可以看出，由于受到碰撞和危险情况的影响，奖励值在训练初期长时间为负；随着训练持续进行，奖励值逐渐上升并趋于稳定。

示意图4 碰撞率，(b) 危险率，以及 (c) 奖励的变化趋势 rd.)

为了更好地说明驾驶安全性的提升，图6展示了合流后的车头时距和车尾间距。其中，蓝线表示自车与前车之间的车头时距$ d_h $，红线表示自车与后车之间的车尾间距$ d_r $，绿线表示前后车辆之间的总距离$ d $（即 $ d=d_h + d_r $）。总距离$ d $在每个回合中由仿真器随机生成，其范围区间如表2所示（即周围车辆之间的距离）。从图6可以看出，在训练初期，$ d_h $或$ d_r $中有一个非常接近于$ d $，而另一个接近于0，这表示自车在合流后与前车或后车发生了碰撞。随着训练的进行，$ d_h $和$ d_r $逐渐收敛，算法能够根据前后车辆之间随机生成的总距离更好地控制合流点与前后车辆之间的距离。如前所述，社会车辆（SVs）的操作由IDM（智能驾驶模型）控制。如果自车与后方社会车辆之间的相对距离较近，该模型会控制后方社会车辆降低速度，以增加与自车的安全距离，但这不可避免地会影响后方社会车辆的正常行驶，进而引起整个交通流的波动。从图中可以看出，当相对距离趋于稳定后，自车并入主路时，$ d_r $的最终值略大于$ d_h $。这样可以获得更高的合并安全奖励$ R_s $，并最小化对前方社会车辆的影响。

示意图5

我们方法的控制有效性

在选择汇入时机时，有必要综合考虑自车与目标车道上社会车辆（SVs）之间的相对位置和速度。在本节中，展示了两种代表性场景（通过加速合流或减速合流），以说明我们的方法能够针对不同的合流场景实现良好的轨迹和速度控制。

通过加速合流的场景

在通过加速合流的场景中，自车仅关注在目标车道上行驶且距离自车最近的周围车辆的观测相对纵向距离。从图7可以看出，自动驾驶车辆的初始纵向位置位于2号SV之后，且具有比社会车辆更高的初始速度。在这种情况下，由于1号和2号SV之间的间距大于2号和3号SV之间的间距，自动驾驶车辆选择加速并进行合流。合流过程从第一秒开始，持续2秒。自动驾驶车辆在完成合流前并未持续加速，在超越2号SV达到一定安全间距后，便开始逐渐减速，以控制其与目标车道前后车辆之间的速度差，从而确保安全并减少对交通流的干扰。由于2号SV的车头时距大于 $ T_h $，且自动驾驶车辆的速度也大于2号SV的速度，因此不会对前方交通流造成影响。这些结果表明，该方法能够基于对交通环境的感知合理地完成合流任务。

示意图6 轨迹和 (b) 通过加速合流场景中的速度。)

通过减速合流的场景

从图8(a)可以看出，自动驾驶车辆初始化在2号SV前方，且1号与2号SV之间的初始距离（33米）大于2号与3号SV之间的初始距离（22米）。因此，自动驾驶车辆可能的最佳策略是加速并超越2号SV以完成合流。然而，从图8(b)可以看出，2号SV从后方开始加速，以减小前方的车距。在这种情况下，考虑到自动驾驶车辆速度低于2号SV，其可能无法再通过加速实现安全合流。因此，在我们的方法控制下，自动驾驶车辆在短暂加速后开始减速。同时，为了减少对后车（第3辆社会车辆）的影响，由于其相对距离已满足合流要求，自动驾驶车辆从第三秒开始适当加速。最终，自动驾驶车辆和第3辆社会车辆的速度波动分别为7%和12%。也就是说，自动驾驶车辆轻微减速，向2号SV让行，然后尽可能平稳地并入目标车道，确保了安全的并道过程。

示意图7 轨迹和 (b) 速度的影响。)

泛化性能

我们还在不同交通密度的环境中测试了我们的方法，以展示其泛化性能。只要周围车辆的密度满足高速公路在中等非拥堵条件下的服务水平，就能确保100%的合流成功率。在环境状态具有较高随机性的情况下，有时可以适当牺牲合流效率以确保最大总奖励。因此，合流时间并非适合作为评估算法泛化性能的单一评价指标，因为该指标的值无法直接对应性能。因此，选择总奖励值作为评价指标，因为总奖励的定义考虑了安全性、合流成功率、效率和舒适性等因素，能够全面反映该方法的性能。
图9总结了该方法在不同交通密度的测试环境中的泛化性能。随着车辆密度的增加，相邻社会车辆（ SVs）之间的相对距离逐渐减小，这对自动驾驶车辆的动作选择提出了更高要求。因此，当周围交通密度低于仿真设计值时，总奖励值增加。随着交通密度的上升，总奖励有所下降，但平均值仍为正值。当检测范围内的交通密度达到八时，交通状况处于拥堵与非拥堵的临界状态。当目标车道处于低速拥堵状态时，由于车间距减小，对自车在合流过程中的交互能力要求更高。因此，在这种情况下会出现一些负奖励，但平均奖励仍然为正。综上所述，我们的方法可以很好地应对高速、非拥堵的匝道合并场景。

示意图8

性能比较

为了进一步验证我们方法的性能，我们还将其与一种最先进的方法（以下简称CMPR方法）进行了比较。CMPR方法采用了一种基于深度强化学习的方法来解决渐变型匝道汇入问题。我们对该CMPR方法的奖励函数设计进行了修改，使其能够适用于平行式匝道的合流场景。因此，并道车辆可以在固定的合流点之前并入目标车道，并在实现成功且安全的合流后获得正向奖励。考虑到该修改仅涉及合流区域，其他设置保持不变，因此该CMPR方法的性能不应受到影响。两种方法均在相同的实验环境（包含由人类驾驶员和自动驾驶汽车控制的车辆的高速公路平行式匝道合流场景）以及如表2所示的相同实验参数下进行训练。同样地，它们均使用真实世界数据集在相同环境下测试了100个回合。两种方法的对比结果如表3所示。其中，平均速度表示合流后并道车辆与社会车辆（SVs）在所有测试结果中平均速度的均值，可用于体现效率性能。平均速度指标综合考虑了并道车辆和社会车辆（SVs），以更好地反映该方法在提升整体交通效率方面的作用。平均最小安全距离表示合流后社会车辆与自车之间的最小距离（车头时距或车尾间距中的较小值）在所有测试结果中的均值，可用于反映安全性性能。
表3显示，我们的方法在测试中能够实现更高的平均速度和更大的平均最小安全距离。换句话说，我们该方法能够更好地提高安全性和效率。我们的方法之所以能实现更优的性能，是因为在奖励函数中同时考虑了多个目标（合流成功、安全性与效率）。特别是，通过引入不同合流行为下的安全距离来设计合流安全奖励，从而更好地提升并道性能并保证最小安全距离。因此，在确保安全的前提下，我们的方法在选择合适间隙时更具灵活性，能够探索更为激进的合流行为。这也确保了并道车辆对社会车辆（SVs）的影响（速度干扰）最小化，表现为采用我们的方法后，自动驾驶车辆与社会车辆的平均速度更高。以下典型案例可以详细说明，相较于CMPR方法，我们的方法如何通过选择合适的间隙，在减少速度波动和对前方交通流的干扰方面表现更优。

指标	CMPR方法	我们的方法
Mean 速度 (m/s)	20.3	22.6
平均最小安全性距离（m）	12.6	20.5

表3. 比较结果。

图10展示了我们的方法与CMPR方法在动态复杂场景下的性能比较。初始时刻，自动驾驶车辆在合流车道上的纵向位置位于2号SV之后。第1辆周围车辆与第2辆周围车辆之间的间距（即2号SV前方的间隙）约为40米，且2号SV后方无其他周边车辆。从图10可以看出，在CMPR方法的控制下，自动驾驶车辆通过减速合流，并选择进入2号SV后方的间隙；而在我们方法的控制下，自动驾驶车辆先加速，随后适当减速，最终并入2号SV前方的间隙。尽管两种方法均能保证自动驾驶车辆成功并入目标车道，但采用CMPR方法控制的自动驾驶车辆在并道过程中车速降低了约34%（从21降至14 m/s），而我们方法中的自动驾驶车辆车速仅波动了13%（从21变化至22.2，再降至18.4 m/s）。自动驾驶车辆先加速的原因是为了在合流前与2号SV保持安全距离，而后续减速则是为了确保与第1辆周围车辆之间满足安全距离要求。在本次合流结束时（即第5秒），自动驾驶车辆与前后车辆之间的车头时距均满足安全性要求。同时值得注意的是，自动驾驶车辆的合流行为对后方的2号车辆未造成显著影响。该典型示例的对比结果表明，自动驾驶车辆由CMPR方法控制的自动驾驶车辆通过牺牲其机动性和效率来完成合并，而由我们的方法控制的自动驾驶车辆则能够在考虑安全性和效率的基础上更合理地选择间隙。综上所述，在高速公路平行式匝道合流场景中，我们的方法在自动驾驶车辆决策方面表现出优于CMPR方法的性能。

示意图9 轨迹和 (b) 速度。)

结论与未来工作

本文提出了一种基于深度强化学习的方法，用于在中等交通流量下通过高速公路平行式匝道实现自动驾驶车辆在动态约束和推理条件下的并道决策。据我们所知，这是首个采用去中心化非协作方式解决平行式匝道合流问题的基于深度强化学习的方法，该问题是具有挑战性且具有实际重要意义的。具体而言，采用深度Q网络算法来解决此问题。根据平行式匝道的独特特性，在设计总奖励函数时考虑了合流成功、安全性以及效率。合流安全奖励函数被定义为通过参考不同合并行为下的安全距离，我们利用真实交通数据集来定义仿真实验。实验结果表明，我们提出的方法能够基于对当前动态环境的理解，综合考虑多种目标进行决策。此外，我们的方法在不同的交通条件下具有良好的泛化性能。与最先进的匝道合流方法的性能比较表明，我们的方法在选择合适间隙以及减少对前方交通流影响方面具有重要价值。综上所述，本文提出的基于深度强化学习的方法能够有效应对高速公路平行式匝道合流场景中具有挑战性的多目标合流问题，对提升交通安全性和效率具有重要意义。
本文针对中等交通密度下的高速场景展开研究，算法的训练结果可保证100%的合流成功率。然而，随着交通密度的增加，目标车道上社会车辆（SVs）之间的相对距离逐渐减小，导致合流成功率开始下降。在这种情况下，合流车道上的自动驾驶汽车（AV）需要从静止状态加速，并在并入主路后迅速调整其速度，以避免与社会车辆（SVs）发生碰撞，并减少对前方交通流的干扰。当前基于深度强化学习（DRL）的方法无法很好地应对这种情况，在未来工作中需要进一步改进，以更好地适应真实交通场景。