利用深度强化学习实现电动汽车的拥堵感知车队重排序优化

生物通首页 > 今日动态 > 正文

利用深度强化学习实现电动汽车的拥堵感知车队重排序优化

时间：2026年2月15日

来源：Neurocomputing

编辑推荐：

拥堵感知的电动车编队重排序优化框架通过LSTM-FCM预测拥堵并约束DRL决策，减少34.4%重排序频率，使SoC标准差下降23.6%。

楚鹏|郭少攀|刘淼|肖龙

南京工业大学计算机与信息工程学院，中国南京

摘要

随着车对车（V2V）通信技术的发展，非固定编队方法变得可行，使得车辆能够动态调整位置、平衡能源使用并提高效率。然而，现有方法忽略了交通条件的动态性。当道路空间有限时，编队重新排序可能会变得不安全甚至不可行。为了解决这些挑战，我们提出了一种基于深度强化学习的电动汽车（EV）拥堵感知编队重新排序优化框架。该框架包括两个模块：交通拥堵感知（TCA）模块和深度强化学习（DRL）模块。具体来说，TCA模块预测交通拥堵类别，并将其作为优化过程中的约束条件，克服了非固定编队方法忽视交通拥堵对重新排序的安全性和可行性影响的局限性。DRL模块基于信任区域策略优化（TRPO）算法，将电动汽车的电池剩余电量（SoC）和预测的交通拥堵类别作为环境观测值。它在拥堵条件下限制重新排序操作，以防止无效动作，并同时管理随着编队规模增加而产生的计算复杂性。实验结果表明，与没有拥堵约束的现有强化学习方法相比，我们提出的框架将编队重新排序的频率降低了34.4%。此外，与现有的重新排序算法相比，它使所有车辆的最终SoC标准偏差降低了23.6%，表明车辆的能源消耗不平衡问题得到了改善。

引言

编队是指通过V2V通信和自动驾驶实现协调的一组连接车辆[1]，它们在近距离内行驶以改善交通流、减少拥堵并通过减少空气阻力来提高能源效率[2]、[3]、[4]。大多数关于编队控制的研究基于固定编队策略，在这种策略中，车辆位置在操作过程中保持不变[5]、[6]。在这个框架内，研究主要集中在速度控制[7]、[8]、[9]、间距控制[10]、[11]、[12]、扭矩分配[13]和通信优化[14]以及横向控制[15]上。然而，这些方法由于持续的空气阻力差异，本质上会导致能源消耗不均衡，从而限制了有效行驶里程[16]、[17]。最近的空气动力学研究表明，处于不同编队位置的车辆会经历不同的空气阻力，从而导致能源节省的差异[18]。领头车辆通常可以实现大约4%–6%的能源节省，而跟随车辆则可以从尾流效应中受益，最多可节省14%[19]、[20]。

最优控制理论为优化电动汽车编队的能源管理和协调提供了一个统一的数学框架[21]。其核心思想是在系统动态和安全约束的条件下，最小化性能指标（如能源消耗、速度偏差、间距误差或整体稳定性），从而获得最优控制策略[22]、[23]。在这一理论的指导下，开发了各种控制方法来实现车辆编队的协调控制和能源高效优化。随着电动汽车的普及，研究人员强调了优化其能源效率的重要性。研究探索了非固定编队方法，允许车辆动态调整位置[24]、[25]、[26]、[27]、[28]、[29]、[30]。谭等人[31]使用庞特里亚金最小原理（PMP）推导出最优控制率，实现了能源最小化和编队稳定性。张等人[24]提出了一种分布式模型预测控制（DMPC）方法，该方法支持领导者切换和间距调整。两种启发式算法——燃料量启发式（FAH）和行驶时间启发式（TTH）被提出用于通过调整车辆位置来扩展行驶里程[25]、[32]。最近的一项研究[26]引入了五种优化算法来解决重新排序问题，与现有的固定编队策略相比，在运行时间和能源平衡方面取得了显著改进。同样的问题也在[27]中使用蒙特卡洛方法进行了研究[33]。为了克服上述优化方法的高计算复杂性，[28]中提出的方法采用了一种基于无模型学习的DRL方法，通过与环境的交互来实现预定义位置的能源消耗平衡。然而，现有的非固定编队方法是为确定性环境设计的，忽略了现实世界交通条件的动态性和不确定性。除了实现能源平衡目标外，非固定编队机制还适用于实际场景，如车辆合并和退出操作[34]，以及多辆车共享同一目的地的长途物流。在这些情况下，动态位置调整允许车辆灵活地加入或离开编队，并定期轮换位置，从而保持能源效率并延长整体行驶里程[26]、[32]。然而，这种动态协调的有效性在很大程度上取决于实时交通条件。在这项工作中，我们特别关注用于能源平衡的拥堵感知重新排序，而不是与操作相关的应用。在交通拥堵的情况下，由于道路空间有限和车辆编队形成时发生碰撞的高风险，编队重新排序往往不可行。仅依赖即时决策无法保证编队的稳定性和安全性。相比之下，预测拥堵可以使车辆避免不必要的或不安全的重新排序，减少策略失败[21]、[35]。因此，拥堵预测是安全和高效编队控制的必要前提，而这在现有工作中被忽视了[36]。

面对上述挑战，我们提出了一种基于深度强化学习的电动汽车拥堵感知编队重新排序优化框架。我们的框架将动态交通拥堵作为编队重新排序过程中的约束条件，旨在最小化所有车辆的最终SoC标准偏差。首先，我们通过引入与交通拥堵和时间间隔相关的约束条件，修改了[28]中提出的最优重新排序（ORS）问题。在我们的框架中，我们设计了两个模块：TCA模块和DRL模块。TCA模块旨在考虑交通拥堵的影响，这是现有方法所忽略的。我们使用长短期记忆（LSTM）网络[37]、[38]来预测未来时期的交通流量、速度和密度。然后，预测的三维交通特征向量通过模糊C均值（FCM）分类器[39]进行处理，该分类器将交通条件分为不同的级别，并选择一个拥堵阈值来确定每个时间步的预测拥堵级别。在DRL模块中，我们定义了一种不同于[28]的状态表示方法，将预测的交通拥堵级别纳入观测值中。这种设计是一种受安全强化学习原则启发的动作约束机制，限制在高拥堵情况下的不安全重新排序动作。基于这种状态表示，我们利用TRPO算法[40]来解决ORS问题，以平衡能源消耗。每个固定时间间隔后，代理将当前拥堵级别与预定义的拥堵阈值进行比较，只有在级别被分类为非拥堵时才允许重新排序。设计了一个奖励函数，鼓励SoC较高的车辆在编队中占据领先位置，促进能源消耗的平衡。TCA模块和DRL模块之间的交互确保只有在有利条件下才激活编队重新排序，有效减少了不可行的重新排序操作。最后，我们应用全局学习率衰减策略来提高TRPO模型的训练稳定性和收敛性。实验结果表明，与基线优化方法相比，我们的拥堵感知编队重新排序优化算法将编队重新排序的频率和失败率降低了，同时保持了合理的运行时间。通过在拥堵条件下施加限制，我们的算法解决了现有方法中忽略的可行性和安全性问题，同时提高了重新排序的有效性和整体编队稳定性。

本文的贡献可以总结如下：

•

我们是第一个提出独特策略来优化编队重新排序以在拥堵约束下最小化最终SoC方差的研究。现有的关于减少能源消耗不平衡的编队重新排序研究[26]、[28]、[32]非常有限，并且是在理想交通条件下进行的，没有系统地解决拥堵场景下的可行性和安全性问题。

•

我们建立了一个安全强化学习框架来解决ORS问题，其中TCA模块提供拥堵感知约束，DRL模块将这些约束纳入训练过程中。通过这种设计，编队仅在非拥堵交通条件下进行重新排序，提高了编队操作的安全性和实际可行性。我们进一步设计了一个中间奖励，逐步引导代理在整个剧集中减少SoC不平衡。相比之下，郭和孟[26]以及刘等人[28]是基于理想交通条件的，没有纳入安全感知约束。

•

我们提出了一种新的编队重新排序框架，并与传统方法和之前的研究进行了全面比较。与没有拥堵约束的基于DRL的编队优化方法[28]相比，它在减少重新排序频率方面实现了34.4%的降低，同时保持了可比的SoC平衡性能。此外，与传统的组合优化算法相比，计算复杂性显著降低，实现了计算复杂性和性能之间的权衡。

•

我们展示了所提出的算法在不同编队规模下保持稳定的SoC平衡和重新排序效率，将[26]中的框架扩展到更大的编队规模，并验证了其可扩展性。