在当今全球迈向碳中和的宏大背景下,智能交通系统(ITS)的目标正经历着根本性的重塑。交通运输部门作为温室气体排放的主要贡献者,传统的、仅关注最小化旅行时间或距离的路径规划范式已显得捉襟见肘。现实世界中,气候政策正日益将长期的可持续发展目标转化为具体且可强制执行的操作要求,例如车队的碳排放预算、基于排放的定价或收费方案,以及与环境绩效挂钩的通行管控政策。至关重要的是,这些规定通常以硬约束的形式出现——一条路径只有在预估总排放量不超过一个预先设定的、具有约束力的预算时,才被认为是可行的。因此,在严格的排放约束下进行路径选择,已成为可持续智能交通系统面临的核心计算挑战。
然而,现实的交通环境极为复杂,这进一步放大了这一挑战。路网在通行能力、运行效率和排放强度上存在显著差异,导致不同路径的累积排放量差异巨大。同时,出行需求高度多样化和动态化。不同的车辆群体受制于不同的排放预算,这些预算可能随着燃料消耗特性、政策调整、网络状况或能源供应模式而持续变化。此外,用户的起点分布广泛,出行请求可能随时、随地随机产生。因此,智能交通系统必须能够在任意起讫点(OD对)和持续变化的排放预算下做出路由决策,同时处理海量的并发请求。在此条件下确保实时响应性和系统级效率,提出了前所未有的挑战,也凸显了现代ITS对动态、可扩展解决方案的迫切需求。
在这一背景下,如何在严格的碳排放约束下实现高效、可扩展、实时的路径决策,已上升为一个具有重要战略意义的研究议题。解决这一问题不仅对协调交通效率与法规遵从至关重要,也对推进绿色出行倡议、加强低碳交通治理具有关键意义。然而,现有方法各有局限。传统算法(如Dijkstra、A*算法)主要聚焦于最短距离或时间,难以应对环境约束。后续演进出的“绿色车辆路径问题”虽然将碳排放作为关键目标纳入多目标优化模型,但现实法规常将排放作为不得违反的硬性上限,而非可权衡的软目标。经典的多目标优化(MOO)模型通常将排放视为可与其他目标(如时间)进行权衡的一个因素,这限制了其在政策驱动场景下的适用性。近年兴起的数据驱动学习方法,如多目标强化学习(MORL),在平衡交通系统中的复杂权衡方面显示出潜力,但其本质仍将排放视为可优化的目标而非必须严格遵守的约束,由此学得的策略可能产生违反固定碳预算的路径。此外,许多方法假设同质化车队,忽略了车辆类型与网络属性之间的交互作用,这可能导致其方案对异质化车队是次优甚至不可行的。在计算层面,传统的约束最短路径问题(CSPP)算法(如标签设定法)或整数规划方法,本质上为解决具有固定OD对和单一预算的独立问题实例而设计,难以应对现实系统中高度多样化的OD对、连续变化的预算以及频繁重复查询的需求,重新为每个OD-预算组合求解新问题会带来巨大的计算开销。
为应对上述挑战,人工智能(AI),特别是强化学习(RL),为复杂的路径规划提供了一种有前景的替代方案。然而,现有的交通领域RL应用也存在局限:许多方法缺乏纳入排放上限等硬约束的正式机制,且未能有效建模异构车辆类型与网络属性之间的交互,通常也不支持在动态、用户特定策略下的按需路由。这些缺陷使得现有模型难以处理任意起点和个性化预算下的泛化需求。
针对已识别的这些研究空白,本文聚焦于严格碳排放约束下的最短时路径规划问题。该问题在具有任意OD对、多样排放预算和大规模并发请求的真实交通系统中频繁出现。为解决此问题,研究团队提出了一个基于约束强化学习的最短路径框架(CRL-SP)。该框架将碳排放约束明确嵌入决策过程,并采用一个结合节点嵌入表与上下文特征的双塔网络结构,从而实现对排放约束路径规划的统一建模与求解。研究中采用了一种结合模仿学习与强化学习的渐进式训练策略,在确保路径可行性和合规性的同时,增强了模型对不同OD对和连续预算条件的适应性与效率。
该研究的主要贡献包括:1) 提出了CRL-SP框架,将碳排放作为结构性嵌入决策过程的硬可行性约束,而非优化目标或惩罚项。2) 开发了一个可行性感知的路径构建机制,将经典CSPP中的全局排放可达性逻辑整合到序列强化学习公式中,通过在每个决策步骤纳入最小排放下界,保证了路由过程的局部和全局可行性。3) 训练了一个统一的基于学习的策略,使其能够在固定交通网络内,泛化到任意OD对和连续变化的排放预算,实现了快速的批量推断,无需为单个OD-预算组合重复求解优化问题。4) 引入了结合行为克隆预训练与强化学习的渐进式训练策略,以在硬约束下稳定学习,并促进在强约束环境中早期发现可行的路由行为。5) 在基准交通网络上进行的大量数值实验表明,所提方法能一致地恢复最优或接近最优解,在经典方法因预算不足而失效的极端预算条件下仍能保持可行性,并且相比传统CSPP求解器,计算效率实现了数量级的提升。
本研究提出的框架为可持续智能交通系统中的排放约束路径规划,提供了一个兼具实用性与可扩展性的学习型解决方案,有望在平衡交通效率与环保目标方面发挥重要作用。
该研究主要应用了以下关键技术方法:首先,将排放约束的最短时路径问题形式化为一个序列决策的马尔可夫决策过程(MDP),状态定义为(当前节点,剩余预算;固定终点),动作为选择一条出边,并通过引入从任意中间节点到终点的最小排放下界来定义可行动作集,确保全局可行性。奖励函数结合了路段旅行时间成本与基于最小剩余旅行时间的势函数差值,以引导智能体高效寻路。其次,构建了一个基于通用价值函数近似(UVFA)的双塔深度Q网络(DQN)架构来近似状态-动作值函数。其中,一个塔通过可学习的嵌入表处理节点、后继节点、终点等离散位置特征及其交互项;另一个塔处理归一化的剩余预算、路段旅行时间与排放成本等连续上下文特征;两个塔的输出融合后通过多层感知机(MLP)输出Q值。最后,采用了一种渐进式训练策略:先利用CSPP算法生成的示范路径进行行为克隆预训练,以建立稳定的决策偏好;随后进入强化学习阶段,结合双DQN、多步回报和优先经验回放等技术进一步优化策略性能。
A. 图表示与排放约束目标
研究将交通网络建模为有向图G=(N, A),每个路段a关联非负的旅行时间ta和排放成本ca。排放成本采用基于距离的线性可加形式表示。对于一个给定的起讫点(OD)对i=(o, d)和排放预算g,目标是在所有可行路径中,找到总旅行时间最短且累积排放不超过g的路径。该问题是一个典型的约束最短路径问题(CSPP),可通过标签设定算法或0-1整数规划形式化求解。
B. MDP公式化与可行行动定义
为了将优化问题纳入强化学习框架,研究将其重新形式化为一个MDP。状态s = (u, b; d) 包含当前节点u、剩余预算b和固定终点d。在节点u,可行动作a = (u→v)是选择一条出边。为确保排放约束,定义了从任意节点u'到终点d的最小排放下界LBemis(u'→d)。在状态s下,一个动作a是可行的,当且仅当执行后剩余预算b - ca既不为负,也不小于从后继节点v到终点d的最小排放下界。奖励函数设计为引导智能体最小化累计旅行时间,同时通过势函数(从节点到终点的最短旅行时间)提供密集的引导信号。非终止状态的即时奖励为-rt= -ta+ k(Φ(u)-Φ(v))。成功到达终点会获得额外奖励,因不可行而终止则会受到惩罚。
C. 基于UVFA-DQN的策略表示
研究采用一个双塔结构的深度Q网络来近似最优状态-动作值函数Q*(s,a)。网络输入包括位置特征和上下文特征。位置特征通过可学习的嵌入矩阵,对当前节点u、候选后继节点v、终点d进行向量化,并引入元素级相乘的交互项以捕获节点间关系。上下文特征包括归一化的剩余预算、路段旅行时间和排放成本。两个特征流分别由独立的MLP塔(包含层归一化和残差连接)处理,其输出拼接后送入一个融合MLP,最终输出单个Q值。在决策时,智能体从当前状态的可行动作集中,选择具有最高估计Q值的动作。
D. 渐进式训练策略
训练过程分为两个阶段。首先是示范引导的预训练阶段:利用传统CSPP算法为大量OD-预算样本生成最优(或可行)路径作为示范,通过行为克隆(即监督学习)的方式,让神经网络模仿示范路径中的状态-动作对,从而快速获得一个可行的初始策略。其次是交互式强化学习阶段:智能体在环境中进行探索,利用双DQN、n步回报和优先经验回放等技术,基于实际交互产生的奖励进一步优化和泛化其策略。这种渐进策略有助于在强约束环境下稳定学习,并加速发现高质量路径。
结果
通过在Sioux Falls、Eastern Massachusetts等多个基准交通网络上的大量数值实验,CRL-SP框架展现出优异的性能。在解决方案质量方面,CRL-SP能够稳定地恢复最优或接近最优的路径,其生成的路径与真实最优解在路径匹配率和路段重叠比上通常高于0.85,而旅行时间和排放的相对偏差则接近于零。这表明学习到的策略具有很高的准确性。在约束满足能力方面,即使是在排放预算极其苛刻、以至于经典标签校正算法因无法找到可行路径而宣告失败的场景下,CRL-SP仍能生成可行且结构一致的路径,展现了其强大的可行性保障能力。在泛化与效率方面,训练好的统一策略能够泛化到未见过的OD对和稀疏采样的排放预算,表现稳健。在计算效率上,CRL-SP支持大规模批量推断,吞吐量超过每秒数万条路径,相比传统的CSPP求解器实现了数个数量级的加速,这使其能够胜任实时、大规模的路径规划请求。
结论与讨论
本研究成功提出了一个名为CRL-SP的约束强化学习框架,用于解决严格碳排放预算下的最短时路径规划问题。与将排放视为优化目标或惩罚项的现有方法不同,该框架创新性地将碳排放作为硬可行性约束,结构性地嵌入到决策过程中。通过整合CSPP的全局可达性逻辑来定义可行动作,并采用结合示范学习与交互学习的渐进式训练策略,CRL-SP能够在确保排放约束严格不被违反的前提下,高效地学习到接近最优的路径策略。
本研究的核心贡献在于其“统一”与“泛化”的能力。训练得到的单一策略模型,能够在一个固定的交通网络内,处理任意起讫点组合和连续变化的排放预算,无需为每个新查询重新运行复杂的优化算法。这种能力对于现实世界中高度动态、个性化的交通需求至关重要。此外,模型展现出的高计算效率(批量推断)使其能够满足大规模并发请求的实时响应要求,这是许多传统优化方法难以企及的。
这项工作为可持续智能交通系统中的排放感知路由提供了一个实用且可扩展的学习型解决方案。它不仅推动了交通路径规划与人工智能(特别是约束强化学习)的交叉研究,也为将长期气候政策转化为具体、可执行的运营决策提供了有力的技术工具。未来,该框架可进一步扩展以纳入时变的交通状况、更复杂的排放模型以及异构车队,从而更好地服务于现实世界的绿色物流和智慧出行系统。