基于跨层交织时空注意力机制的高精度多模态车辆轨迹预测模型

时间:2026年1月24日
来源:Engineering Applications of Artificial Intelligence

编辑推荐:

轨迹预测方法在开放矿井场景中应用,提出混合raster-vector地图编码框架结合层次化注意力机制,有效解决不规则道路和复杂交互问题,实验显示预测误差降低36.4%。

广告
   X   

陈志发|陈鹏|杨松月|李雷|吴嘉琪|孙仁涛|王张宇|余贵珍
杭州国际创新研究院,北京航空航天大学,中国杭州,311115

摘要

在露天矿场中,由于道路结构不规则、缺乏车道标记以及车辆交互复杂,自动驾驶车辆的轨迹预测具有挑战性。在人工智能方法论方面,本文的核心贡献是一种新颖的混合栅格-向量地图融合网络,旨在应对这些挑战。该框架编码了可行驶区域的栅格特征和稀疏车道图向量,随后通过分层注意力机制实现跨模态地图融合、代理间交互以及地图到代理的上下文化。在工程应用方面,我们专注于在真实的露天矿场作业中部署和验证该模型。在专用数据集上的评估表明,我们的方法在6秒预测范围内实现了最小的最终位移误差(minFDE)为1.71米,与基于栅格的强基线方法相比,误报率降低了36.4%。在中国一个露天矿场进行的4小时实际验证中,涉及超过30种交互场景,证实了该框架在自动驾驶运输卡车方面的实用性。

引言

在自动驾驶系统中,车辆轨迹预测需要对动态代理与静态环境之间的复杂时空交互进行稳健建模。尽管在使用栅格化图像表示(Cui等人,2019年;Djuric等人,2020年)或基于向量的图方法(Liang等人,2020年;Zhang等人,2024年)的结构化城市场景中取得了显著进展,但这些方法在应用于露天矿场等非结构化环境时面临关键挑战。本研究解决了露天矿场中多模态车辆轨迹预测的问题。具体来说,给定场景中所有代理过去2秒的轨迹和静态地图上下文,目标是预测目标车辆在6秒时间范围内的K=6条合理未来轨迹。我们的评估基于包含大约50,000个场景的收集数据集,重点关注场景级别的预测任务。
现有的栅格化技术将场景元素渲染为网格结构图像,但由于离散化伪影而丢失信息,并且无法捕捉不规则的道路边界(Li等人,2025年)。相反,像LaneGCN(Liang等人,2020年)这样的向量化表示方法是为明确定义的车道拓扑设计的,而在露天矿场中这种拓扑通常是缺失或不规则的;直接将这些方法与手动标注的车道图结合使用可能是次优的,正如我们使用LaneGCN风格变体进行的控制实验所显示的(见第4.2节)。这突显了需要能够适应地图不规则性的表示方法。因此,我们的工作属于融合互补表示的方法,提出了MinePredictRVF——一种具有分层注意力融合网络的混合栅格化-向量化地图编码框架。最近的研究(Cui等人,2023年;Zhang等人,2024年)表明,视角不变的编码能够有效捕捉车辆间交互模式。受此原理启发,我们的代理编码明确分离了时间和空间信息,以实现稳健的、旋转不变的表示。虽然我们的融合机制以代理为中心,符合更广泛的以查询为中心的方法趋势(例如,MTR++(Shi等人,2024年)),但它独特地操作于特定于非结构化地图挑战的异构特征层次结构(栅格、向量、代理),而不仅仅依赖于代理查询进行场景编码。
专注于露天矿场的封闭环境,直接将RGB栅格化图像渲染和基于CNN的特征提取应用于交通场景会导致图像表示过程中的显著信息损失,从而导致轨迹预测精度普遍较低(Li等人,2025年)。如图1(a)所示,由于露天矿场中缺乏明确的车道线和不规则的边界,像VectorNet(Gao等人,2020年)和LaneGCN(Liang等人,2020年)这样的向量化编码方法在表示车道时倾向于引入人为噪声和来自手动绘制地图的人为干扰。我们的分析表明,栅格化表示保留了可行驶区域的细粒度空间连续性,而稀疏车道图编码了对于长期意图预测至关重要的方向流模式。然而,现有的特征融合框架(Gao等人,2020年;Zhou等人,2022年)缺乏平衡这些互补特征的分层机制,导致几何和拓扑约束的整合不够理想。为了解决露天矿场多模态车辆轨迹预测任务中的这些挑战,我们提出了MinePredictRVF——一种专为露天矿场挑战设计的混合栅格化-向量化地图编码框架,具有分层注意力融合网络。所提出的方法已在收集的露天矿场运动预测数据集上进行了严格测试。
本工作的关键贡献包括:
  • (1)
    双分支静态地图编码:我们认为栅格化编码对于捕捉不规则边界以提高长预测范围内的FDE至关重要,而稀疏车道图向量化则稳定了多模态预测。这一点通过分别禁用每个分支进行了测试(第4.3节)。
  • (2)
    时空解耦的动态代理编码:我们声称分离时间和空间编码增强了旋转和平移不变性,从而实现了更稳健的轨迹预测。
  • (3)
    异构特征的分层融合:我们假设我们的多层注意力架构(跨模态地图融合、代理间和地图到代理网络)有效地防止了特征淹没,这是超越现有融合方法的关键。
  • 露天矿场环境呈现出独特的几何和拓扑挑战组合,这需要我们的混合设计。首先,不规则且宽度变化的可行驶区域以及薄弱或缺失的车道标记使得局部导航严重依赖几何边界,我们的栅格化编码分支直接解决了这一问题,最大化了空间保真度。其次,尽管缺乏正式的车道,车辆运动仍由稀疏的道路连接拓扑引导,这通过我们的稀疏车道图向量化得到了最佳捕捉,用于长期意图推理。第三,环境赋予车辆较大的运动自由度(例如,宽阔的交叉口、停车区),需要一个能够建模多种意图的解码器;这通过向量分支稳定模式选择得到了实现。最后,距离边界启发式对于安全至关重要,需要一个融合机制能够有效平衡细粒度的几何约束(来自栅格)和方向流模式(来自向量),这通过我们的分层注意力融合网络实现,以防止任何一种特征类型被淹没。
    所提出的方法在我们的露天矿场车辆预测数据集上进行了严格评估。实验设计包括与几种强大且具有代表性的基线方法进行比较,包括基于栅格的方法(例如,CNN-LSTM、基于CNN的MTP)和基于向量的方法(例如,LaneGCN-Vector),使用标准指标(minADE、minFDE)。消融研究验证了我们的架构选择,结果得到了统计显著性测试的支持。我们还讨论了实际部署的协议。
    本文的其余部分组织如下:第2节回顾相关工作。第3节详细介绍了所提出的轨迹预测网络架构。第4节展示了在露天矿场轨迹数据集和真实世界测试上的实验结果。最后,第5节总结了研究并讨论了未来的工作。

    章节片段

    场景信息输入表示

    用于轨迹预测任务的自动驾驶场景通常涉及周围交通代理的历史轨迹和静态地图输入表示。轨迹数据本质上包含时空维度,通常被离散化为带时间戳的状态序列(Guo等人,2025年;Liu等人,2022年,2025年;Tang等人,2022年)。最近的进展(Cui等人,2023年;Zhang等人,2024年)进一步编码了代理之间的空间相对位置关系

    问题表述

    露天矿场中的车辆轨迹预测任务定义为:自动驾驶采矿车辆需要根据接收到的多个移动代理的历史轨迹和周围地图信息,为所有代理生成合理的多模态未来轨迹
    M

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有