HMP-RL：用于卡车编队的分层多策略强化学习

生物通首页 > 今日动态 > 正文

HMP-RL：用于卡车编队的分层多策略强化学习

时间：2026年2月24日

来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES

编辑推荐：

卡车编队端到端协同优化，提出多策略强化学习框架（HMP-RL）与异构高斯过程贝叶斯优化（HGP-BO），实现编队率92%和能耗降低10.2%。

刘成奇|黄凯|周鸿月|顾子渊|刘琦|刘志远

江苏省现代交通协同创新中心，东南大学交通学院，城市智能交通系统江苏省重点实验室，城市交通技术方向，南京，中国

摘要

卡车编队技术在降低能源消耗方面显示出潜力，因此被广泛应用于公路货运运输中。然而，现有的方法通常侧重于高层规划或低层控制，缺乏端到端编队协调的集成框架。为了解决这一问题，我们提出了一个分层多策略强化学习（HMP-RL）框架，用于公路走廊中的异构卡车编队。上层解决编队形成的能源消耗最小化问题，而下层优化编队级别的决策，以实现多个目标，输出预期的速度和车道选择，确保平稳到达。具体来说，我们设计了一种多策略强化学习方法，该方法存储一组帕累托最优策略，由基于异方差高斯过程的贝叶斯优化（HGP-BO）算法进行管理。该系统能够实时选择合适的策略，从而克服了传统加权求和方法的局限性。案例研究表明，我们的框架实现了92%的编队率，并将能源消耗降低了10.2%。

引言

卡车编队已成为现代货运运输中的一个变革性范式，多辆卡车以紧密协调的车队形式行驶，从而显著提高能源效率。当车辆以紧密编队行驶时，领头车辆会创建一个低压区，减少后续车辆的空气阻力，从而大幅降低燃料消耗（Zhang等人，2020年）。研究表明，跟随车辆的燃料节省量可达到20%（McAuliffe等人，2017年）。这种节能潜力引起了学术界和工业界的极大兴趣。著名的例子包括加州大学伯克利分校与沃尔沃在动态编队路线技术上的合作（Shladover等人，2019年），以及日本在公路编队中部署的合作自适应巡航控制（CACC）系统（Yoshioka和Suzuki，2024年）。

随着联网和自动驾驶车辆（CAV）技术的快速发展，系统级协调编队控制迎来了前所未有的机会。配备车载单元（OBUs）的CAV可以实时与路边单元（RSUs）和交通控制中心（TCCs）通信，从而实现动态数据收集和编队协调决策的优化（Wang等人，2024年）。例如，新加坡的Haulio平台通过利用数字化集装箱物流生态系统，展示了早期工业应用中的卡车编队协调（Salim，2025年）。随着这一趋势的持续发展，实现跨异构车队的统一系统级编队协调的目标变得越来越现实。这些技术和运营方面的进步为优化编队规划和控制的研究奠定了基础。

基于这一基础，关于卡车编队的文献可以大致分为两个关键主题：高层规划和低层控制。规划层处理执行前的战术决策，包括编队形成（Chen等人，2021年）、路线选择（Hu等人，2024年）和出发调度（Zhao和Leus，2024年）。这些方法通常旨在优化能源消耗、车队运营成本和协调效率等目标，同时考虑时间窗口、速度限制和车辆兼容性等约束（Bhoopalam等人，2018年）。例如，Chen等人（2021年）提出了一个混合整数二阶锥规划模型，用于联合优化车辆调度和编队协调。Barua等人（2023年）开发了一个基于偏好的平台化编队形成系统，以确保稳定性。Chen等人（2023年）研究了多运营商之间合作自动驾驶卡车编队的成本分配机制。最近的进展进一步引入了“作为服务的编队”（PaaS）概念，利用中央平台来协调多源卡车（Qing等人，2025年）。然而，这些战略模型通常假设低层执行是确定性的，缺乏适应实时交通中断的灵活性，例如饱和交通对编队稳定性的负面影响（Calvert等人，2019年）。

在控制层，车辆级行为管理方法从传统的线性控制、模型预测控制（MPC）到新兴的机器学习方法都有。其中，线性控制由于其可解释性和鲁棒性而仍被广泛使用，而MPC和基于机器学习的方法则是当前研究的前沿。例如，Karthik等人（2024年）使用编码器-解码器神经网络进行电动卡车编队的速度规划。Li等人（2024年）提出了STdi4DMPC，这是一种数据驱动的纵向控制框架，结合了时空注意力进行轨迹预测和混合交通场景下的深度MPC。

强化学习（RL）作为机器学习的一个新兴分支，在各种交通领域展示了显著的决策和学习能力，包括交通信号控制和公路管理（Jia等人，2025年；Liu等人，2025a；Liu等人，2025b；Shi等人，2024年）。然而，卡车编队的独特性质使其与这些典型应用有所不同：控制决策必须明确考虑多个相互冲突的目标，如安全和效率。传统的RL侧重于通过奖励来优化单一目标。为了解决多目标问题，常见的方法是将其转换为加权求和。例如，Lian等人（2023年）通过设计一个结合节能、安全和乘坐舒适性等目标的标量奖励函数，构建了一个简单的MARL框架。最近的研究探索了像总运营成本这样的综合奖励结构，以平衡能源、时间和安全成本（Pathare等人，2025年）。

虽然传统的加权求和RL模型能够取得合理的结果，但它们缺乏对现实世界卡车编队的适应性，因为在不同情境下客户偏好会变化且动态变化（Wang等人，2021年）。这给加权求和方法带来了两个关键限制：每当权重发生变化时，代理必须重新训练，这在计算上是不切实际的；并且在训练过程中尝试嵌入所有可能的偏好往往会导致不稳定和收敛不良。更关键的是，实时用户效用是不可预测的，无法预先训练（Hayes等人，2021年）。一个有前景的替代方案是学习一组代表目标之间权衡的帕累托最优策略，使系统能够在运行时动态选择最合适的策略（Lautenbacher等人，2025年）。然而，现有的基于帕累托的多策略RL方法在需要高层形成规划和低层效用感知控制协调的卡车编队场景中应用有限且尚未得到充分探索。

此外，尽管规划和控制层都得到了广泛研究，但它们之间的有效整合仍然是一个关键缺失的部分。现有文献往往将战略调度与操作控制分开（De Zarzà等人，2023年；Qing等人，2025年），未能建立闭环协调。理想情况下，规划输出应指导控制策略，而控制层的反馈应不断更新规划决策（Qin等人，2025年）。如果没有这种双向链接，规划和控制就有可能脱节。尽管有如Chen等人（2021年）这样的努力将控制层信息嵌入规划中，但它们通常缺乏实时反馈的适应性，限制了实际应用。

总之，现有研究存在以下关键限制：（i）高层编队规划缺乏可扩展性和异质性建模；（ii）低层编队控制建模缺乏灵活性；（iii）缺乏一个结合规划和控制并具有闭环反馈的统一框架。为了解决这些挑战，本文提出了一种用于连接技术下的卡车编队的分层多策略强化学习框架（HMP-RL）。所提出的方法通过以下方式整合了编队形成和实时控制：

•

基于多策略RL的控制：控制层采用多目标RL训练公式，使用基于异方差高斯过程的贝叶斯优化框架（HGP-BO）训练策略集。自定义的策略选择机制根据当前客户偏好、环境条件和任务动态选择最优策略。

•

可扩展的滚动时域编队规划：规划层制定了一个考虑车辆异质性的滚动时域优化模型，并将其空间分解为子问题以高效解决。

•

具有闭环反馈的联合决策：设计了一个分层框架，以协调高层编队形成和低层驾驶行为，其中能源消耗和形成可行性为双向优化提供了桥梁。

本文的其余部分组织如下：第2节介绍系统架构和框架概述。第3节阐述了高层规划模型及其分解策略。第4节介绍了多策略RL的设计、训练和策略选择机制。第6节使用真实数据评估了所提出的框架。最后，第7节总结了本文并讨论了未来的研究方向。

章节摘录

系统架构

在本节中，我们描述了我们提出的框架的整体系统架构及其部署环境。

假设

为了便于建模，我们采用以下假设：

•

我们考虑两种异构车辆类型（NDT和HDT），最大编队规模为三辆。这种设置符合大多数国家的高速公路法规，并平衡了交通流量、基础设施磨损、安全性和实用性考虑（Calvert等人，2019年；Cheng等人，2023年；Gungor和Al-Qadi，2020年）。此外，

低层控制：多策略RL

在低层控制中，我们关注不同状态下的编队轨迹管理。在接收到上层信息（编队形成和新车辆通过匝道的预期到达时间）后，我们收集主线路上所有编队的信息，并根据它们的状态应用相应的控制策略。不失一般性，单独在主线上行驶的车辆也被视为一长度为1的编队。

解决方案算法

在建模了RL代理之后，我们介绍了用于低层控制的多策略RL算法，并解释了训练有素的代理如何将决策映射到每个编队内的车辆级轨迹，如图3所示。

如图3(a)所示，在训练阶段，我们扩展了单策略RL框架，生成一组近似多目标空间中帕累托前沿的策略。具体来说，我们采用了HGP-BO，这是一种贝叶斯优化框架，用于自适应地确定

实验描述和参数设置

我们使用一个真实的公路走廊来评估我们的HMP-RL框架。所选的走廊涵盖了宁波-杭州高速公路的一段65.9公里的路段。该路段是一条四车道高速公路，包括6个匝道以及起点和终点（如图5(b)所示）。该走廊配备了RSUs和TCC。我们使用2021年1月31日收集的真实车辆数据，使用SUMO交通模拟器（Behrisch等人，2011年）构建了一个模拟的道路网络。

基于收费站数据