基于这一基础,关于卡车编队的文献可以大致分为两个关键主题:高层规划和低层控制。规划层处理执行前的战术决策,包括编队形成(Chen等人,2021年)、路线选择(Hu等人,2024年)和出发调度(Zhao和Leus,2024年)。这些方法通常旨在优化能源消耗、车队运营成本和协调效率等目标,同时考虑时间窗口、速度限制和车辆兼容性等约束(Bhoopalam等人,2018年)。例如,Chen等人(2021年)提出了一个混合整数二阶锥规划模型,用于联合优化车辆调度和编队协调。Barua等人(2023年)开发了一个基于偏好的平台化编队形成系统,以确保稳定性。Chen等人(2023年)研究了多运营商之间合作自动驾驶卡车编队的成本分配机制。最近的进展进一步引入了“作为服务的编队”(PaaS)概念,利用中央平台来协调多源卡车(Qing等人,2025年)。然而,这些战略模型通常假设低层执行是确定性的,缺乏适应实时交通中断的灵活性,例如饱和交通对编队稳定性的负面影响(Calvert等人,2019年)。
在控制层,车辆级行为管理方法从传统的线性控制、模型预测控制(MPC)到新兴的机器学习方法都有。其中,线性控制由于其可解释性和鲁棒性而仍被广泛使用,而MPC和基于机器学习的方法则是当前研究的前沿。例如,Karthik等人(2024年)使用编码器-解码器神经网络进行电动卡车编队的速度规划。Li等人(2024年)提出了STdi4DMPC,这是一种数据驱动的纵向控制框架,结合了时空注意力进行轨迹预测和混合交通场景下的深度MPC。
强化学习(RL)作为机器学习的一个新兴分支,在各种交通领域展示了显著的决策和学习能力,包括交通信号控制和公路管理(Jia等人,2025年;Liu等人,2025a;Liu等人,2025b;Shi等人,2024年)。然而,卡车编队的独特性质使其与这些典型应用有所不同:控制决策必须明确考虑多个相互冲突的目标,如安全和效率。传统的RL侧重于通过奖励来优化单一目标。为了解决多目标问题,常见的方法是将其转换为加权求和。例如,Lian等人(2023年)通过设计一个结合节能、安全和乘坐舒适性等目标的标量奖励函数,构建了一个简单的MARL框架。最近的研究探索了像总运营成本这样的综合奖励结构,以平衡能源、时间和安全成本(Pathare等人,2025年)。
虽然传统的加权求和RL模型能够取得合理的结果,但它们缺乏对现实世界卡车编队的适应性,因为在不同情境下客户偏好会变化且动态变化(Wang等人,2021年)。这给加权求和方法带来了两个关键限制:每当权重发生变化时,代理必须重新训练,这在计算上是不切实际的;并且在训练过程中尝试嵌入所有可能的偏好往往会导致不稳定和收敛不良。更关键的是,实时用户效用是不可预测的,无法预先训练(Hayes等人,2021年)。一个有前景的替代方案是学习一组代表目标之间权衡的帕累托最优策略,使系统能够在运行时动态选择最合适的策略(Lautenbacher等人,2025年)。然而,现有的基于帕累托的多策略RL方法在需要高层形成规划和低层效用感知控制协调的卡车编队场景中应用有限且尚未得到充分探索。
此外,尽管规划和控制层都得到了广泛研究,但它们之间的有效整合仍然是一个关键缺失的部分。现有文献往往将战略调度与操作控制分开(De Zarzà等人,2023年;Qing等人,2025年),未能建立闭环协调。理想情况下,规划输出应指导控制策略,而控制层的反馈应不断更新规划决策(Qin等人,2025年)。如果没有这种双向链接,规划和控制就有可能脱节。尽管有如Chen等人(2021年)这样的努力将控制层信息嵌入规划中,但它们通常缺乏实时反馈的适应性,限制了实际应用。