一种精炼的协同优化控制方法，通过深度强化学习在连通环境中缓解瓶颈附近的拥堵问题

时间：2026年2月23日

来源：TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES

编辑推荐：

交通瓶颈区域协同优化控制方法研究提出基于深度强化学习的 refined synergistic optimization control (RSOC) 方法，通过精细车道级空间分割实现实时交通状态感知，融合匝道 metering 和连续车道级速度限制 (CLVSL) 的协同控制策略，设计集成奖励函数平衡局部安全与全局效率，采用软 actor-critic (SAC) 算法优化多目标控制参数，并通过 US101 高速公路仿真验证有效缓解拥堵、降低旅行时间并提升安全性。

吴文琪|易子伟|冉斌|杨海

香港科技大学土木与环境工程系，中国香港

摘要

瓶颈区域附近的交通拥堵对高速公路的效率、安全性和可持续性构成了严重威胁。现有的主动控制策略主要采用可变速度限制（VSL）、匝道计量（RM）或两者的结合。然而，VSL常常面临过度控制的困境，导致交通效率下降。此外，在入口匝道瓶颈处仍缺乏有效的方法来协同车道级别的VSL（LVSL）和RM。为了解决这些问题，本研究提出了一种基于深度强化学习的精细化协同优化控制（RSOC）方法。首先，定义了RSOC的关键组成部分，包括对入口匝道附近道路进行细粒度的车道级空间分割，以实现精确的交通状态表示。构建了一个融合动作，结合了连续LVSL（CLVSL）控制的速度限制方案、RM的匝道计量率及其协同控制方案。开发了一个综合奖励函数，以平衡瓶颈处的局部效率与安全性以及整个系统的行驶时间。然后，首次采用了演员-评论家框架，根据不断变化的时空交通动态动态灵活地调整RM和CLVSL的组合和控制长度。接下来，使用软演员-评论家（SAC）算法来训练RSOC的演员和评论家网络，利用其在处理连续动作空间方面的优势。最后，使用US101-S高速公路上的真实世界入口匝道场景对提出的RSOC方法进行了验证，并通过一个定制的仿真平台来模拟协同控制环境。实验结果表明，提出的RSOC方法：（1）能够在各种场景中显著缓解拥堵波，即使在严重拥堵的车道中也是如此；（2）显著减少了整个区域和瓶颈区域的总行驶时间，同时提高了交通安全性；（3）在不同比例的联网自动驾驶车辆场景下，显示出明显的交通安全性和效率提升。

引言

作为现代交通基础设施的关键组成部分，高速公路在促进经济发展、便利出行、改善区域连通性和创造就业机会方面发挥着重要作用（Liu等人，2022年）。随着城市化和车辆电气化的迅速推进，高速公路的运营和管理面临着前所未有的压力（Nguyen等人，2019年）。尽管全球高速公路里程不断增加，关键路段的重建和扩建也在加速，但高速公路的发展仍然难以满足日益增长的出行需求。这导致了越来越严重的拥堵和频繁的事故（Pasidis，2019年）。在欧洲，道路占货运运输公里的50%和客运运输公里的70%，道路拥堵成本估计占发达国家的GDP的1.0-2.5%（Schubert等人，2022年）。随着COVID-19大流行的缓解，美国的高速公路拥堵小时数从2020年到2021年增加了34%，规划时间增加了10%（Robinson等人，2023年），而2023年机动车事故导致大约40,990人死亡（Chen等人，2024年）。

相关研究表明，高速公路入口匝道及其相邻的主线区域是容易发生交通事故和反复拥堵的瓶颈路段（Haule等人，2021年）。如果没有在这些区域采取积极的控制措施，拥堵很容易向上游蔓延，导致交通瘫痪和整个交通网络的恶化。智能交通系统（ITS）技术，例如主动交通控制技术，对于解决这些问题至关重要。传统的主动交通控制包括可变速度限制（VSL）控制（Khondaker和Kattan，2015a）和匝道计量（RM）控制（Papageorgiou和Kotsialos，2002）等技术。VSL和RM控制都可以调节瓶颈区域的交通流量。前者可以限制进入瓶颈区域的流量，从而防止容量下降（Chen和Ahn，2018年），而后者可以在不干扰主线交通流量的情况下将瓶颈区域的交通需求限制在容量范围内。然而，传统的交通控制技术缺乏与车辆和驾驶员的实时信息交互，难以准确感知交通流量和道路状况的变化。因此，它们在缓解交通拥堵和提高交通效率方面存在不足。因此，有必要整合新兴技术以实现更高效的主动交通控制。

通信、大数据和自动化技术的进步使得联网和自动化车辆高速公路（CAVH）系统成为智能交通系统（ITS）发展的重要方向（Li等人，2022年；Ran等人，2025年；Ran等人，2024年）。在CAVH环境中，交通控制中心（TCC）通过联网的自动化车辆（CAV）持续收集、传输和处理数据，并通过无线通信共享信息，促进了车辆之间以及车辆与路边设施之间的数据交换。这种转变意味着驾驶行为不再仅仅依赖于驾驶员的心理反应，还受到交通控制系统发出的指令的影响。一方面，这使得交通感知不再依赖于传统的固定检测器，从而提高了感知的精度。另一方面，TCC可以计算出更高效和精细的主动管理控制指令，车辆可以更高地遵守这些指令。这最大限度地利用了道路资源，减少了交通风险，并提高了交通效率。

然而，现有的主动交通控制系统仍然面临以下问题：（1）VSL控制在提高交通效率方面的有效性仍存在争议。虽然一些最近的研究试图通过分析优化VSL区域的布置（Martinez和Jin，2020年；Martinez和Jin，2018年；Wang和Cheng，2017年）或实施车道级别VSL（LVSL）方案（Lu等人，2023年；Wu等人，2020年）来提高其性能，但这些方法通常依赖于预先定义的控制区域。特别是，当前的方法往往忽略了交通流量的时变特性，无法实时动态调整控制区域的长度和覆盖范围。（2）现有的协同交通控制方法主要集中在VSL和RM策略的联合实施上，以缓解瓶颈附近的拥堵（Perraki等人，2018年；Roncoli等人，2016年）。目前仍缺乏能够联合优化多个控制维度的精细化协同控制框架，包括匝道计量率、具有可变控制区域的LVSL及其协同控制方案。这种限制限制了当前协同控制方法的可扩展性和响应能力，尤其是在复杂和高需求的情况下。（3）深度强化学习（DRL）提供了一种从高维交通状态中学习自适应控制策略的有希望的范式，无需依赖显式的建模假设。很少有研究充分利用DRL的潜力来优化上述精细化协同控制。基于DRL的协同控制架构的开发，能够联合优化多级控制决策并具有时空适应性，这一领域尚未得到充分探索。

为了解决入口匝道瓶颈附近交通拥堵和安全性的关键挑战，本研究提出了一种基于DRL的精细化协同优化控制（RSOC）方法。RSOC框架首先将控制区域离散为细粒度的车道级单元，以实现交通状态的精确表示。通过利用车对基础设施（V2I）和车对车（V2V）通信技术，实时聚合和转换车辆级别的位置和运动信息，形成宏观交通状态。首先定义了RSOC方法的关键组成部分，包括对入口匝道附近道路的细粒度车道级空间分割，从而实现准确和动态的交通状态表示。基于这一结构，制定了一个综合控制动作，综合考虑了CLVSL的连续速度限制方案、匝道计量率及其协同协调机制。为了指导学习过程，引入了一个专门设计的综合奖励函数，明确平衡了瓶颈区域内的局部运营效率与安全性以及整个系统的行驶时间。在此基础上，首次采用了演员-评论家框架，根据时空交通动态动态灵活地调整RM和CLVSL的组合和控制长度。然后使用软演员-评论家（SAC）算法来训练RSOC的演员和评论家网络，利用其在处理连续动作空间方面的强大能力。最后，通过在US101-S高速公路的真实世界瓶颈场景上进行实验来验证提出的RSOC方法。构建了一个高保真度仿真平台，结合车道级别的交通流量数据来校准微观交通模型。实验结果表明，RSOC显著缓解了拥堵波，减少了局部和系统范围内的总行驶时间，并在不同比例的联网自动驾驶车辆情况下提高了交通安全性。本文的主要贡献如下：

首次提出了一种结合RM控制和车道级别可变速度限制控制，并具有可调控制区域的新型RSOC框架，用于缓解瓶颈拥堵。

采用软演员-评论家算法来训练RSOC方法，以实现匝道计量率、连续LVSL方案及其协同策略的联合优化。

为RSOC设计了一个综合奖励函数，明确平衡了局部瓶颈控制与全局交通效率。

开发了一个协同控制仿真平台，以US101高速公路的真实世界入口匝道作为案例研究。在各种场景下进行了全面的基于仿真的评估，例如不同的交通需求和CAV渗透率。

本文的其余部分组织如下。第2节提供了关于VSL控制、RM控制和VSL-RM协同控制的文献综述。第3节介绍了RSOC的方法论，包括关键要素、演员-评论家框架和训练算法。第4节描述了实验场景、仿真平台、微观交通流模型、基准和评估指标。第5节讨论了结果和分析。第6节总结了工作成果，并为未来的研究方向提供了见解。

章节片段

文献综述

本节提供了VSL控制方法、RM控制方法和VSL-RM协同控制方法的文献综述。

方法论

本节首先介绍了精细化协同控制方法的概念和框架。然后，介绍了RSOC的关键组成部分。接下来，介绍了RSOC的演员-评论家框架。最后，介绍了用于训练RSOC控制方法的SAC算法。

测试场景描述

为了彻底验证所提出方法的有效性，本文特意选择了加利福尼亚州US101高速公路南行方向（US101-S）一个具有周期性拥堵特征的瓶颈区域作为实验场景。根据性能测量系统（PeMS）数据库的数据，¹该区域位于Mainline VDS 410153（Cochrane Rd rm-s-diag）附近，长期以来一直受到拥堵问题的困扰。2023年，

关键参数选择对RSOC方法性能的影响

本节研究了神经网络架构和LVSL控制区域的空间范围对所提出的RSOC框架性能的影响。图9展示了不同神经网络架构在不同交通需求场景下对RSOC方法获得的综合奖励的比较分析。隐藏层的数量

N_{HL}

从1变化到4，每层的隐藏单元数量从集合{128, 256, 384, 512}中选择。

结论

频繁的公路拥堵带来了巨大的社会、经济和环境成本。VSL和RM已被广泛认为是缓解瓶颈相关拥堵的有效策略。为了进一步提高它们的协调性和性能，本研究提出了一种基于DRL的RSOC方法，该方法在联网车辆环境中发挥作用。利用V2I和V2V通信，RSOC框架收集实时的车辆级别位置和运动数据，这些数据被转换成宏观