AB-DIAM:一种基于突发行为驱动的交互式注意力模型,用于行人轨迹预测

时间:2026年1月8日
来源:Neurocomputing

编辑推荐:

行人轨迹预测中的动态社会交互建模与注意力优化,提出AB-DIAM框架,通过动态调整交互范围、嵌入行为特征、优化突发行为注意力权重提升预测精度,实验验证优于现有方法。

广告
   X   

Jingchang Xie|Beihai Tan|Rong Yu|Bailin Huang|Yuanhao Han
广东工业大学,中国广东省广州市番禺区广州大学城西外环路100号,510006

摘要

行人轨迹预测对于智能交通和自动驾驶至关重要,因为其准确性显著影响系统的安全性和效率。现有方法通常依赖静态阈值来构建社会交互图,这限制了它们适应复杂场景中动态社会属性的能力,从而降低了预测精度。本文提出了突发行为驱动的交互注意力模型(AB-DIAM),该模型通过利用以下模块有效解决了社会交互建模的挑战:动态社会交互范围调整(DSIRA)、动态行为嵌入社会交互(DBESI)和突发行为交互注意力(ABIA)。具体而言,DSIRA采用了一种由行人速度和方向变化驱动的自适应动态阈值图构建算法,提高了场景适应性。DBESI将行为特征嵌入节点表示中,构建超图,实现稳健的社会交互建模。ABIA动态调整注意力权重,以捕捉短期突发行为,从而优化特征提取并提高轨迹预测的准确性。在公共数据集上的实验结果表明,所提出的AB-DIAM在平均位移误差(ADE)和最终位移误差(FDE)方面优于现有的基线方法。

引言

准确预测行人的未来轨迹对于自动驾驶和机器人导航等应用中的安全决策至关重要[1]、[2]、[3]、[4]、[5]。有效的轨迹预测不仅取决于个体的历史运动模式,还取决于行人之间的动态交互[6]、[7]、[8]。例如,在拥挤的环境中,一个行人的突然转弯或加速可能会引发附近其他人的连锁反应[9]。因此,在动态场景中有效建模行人的突发行为是轨迹预测任务的关键要求。
早期的轨迹预测研究集中在使用循环神经网络(RNN)[10]及其变体(如长短期记忆网络LSTM)[12]来建模人际交互和多模态行为,以捕捉时间依赖性。为了应对社会交互的复杂性,生成对抗网络(GAN)[13]和条件变分自编码器(CVAE)[14]被用来建模轨迹分布,产生社会上合理的预测。虽然这些基础方法[15]、[16]、[17]、[18]、[19]、[20]、[21]为该领域做出了重要贡献,但它们在捕捉时变特征(尤其是突发行为)方面的能力有限。此外,基于RNN的模型(包括LSTM和门控循环单元GRU)在多样化的场景中通常具有有限的泛化能力,导致在现实世界的动态环境中的鲁棒性降低[22]、[23]。
近年来,图神经网络(GNN)[24]因其强大的关系建模能力而成为轨迹预测的研究焦点。这些模型将行人及其交互视为图。它们使用图注意力网络[25]、[26]和时空图卷积网络[27]等方法,在复杂情况下表现非常好。例如,Liu等人提出的STAGP[28]使用时空自适应图池化网络来显式建模行人交互,减少了冗余交互的影响。然而,建模时间依赖性的高计算复杂性阻碍了其在实时应用中的适用性。同样,Gao等人提出的STGSTN[29]将稀疏变换器与时空图结构结合,以捕捉长期依赖性,但严重依赖训练数据的质量,导致在高度动态或拥挤的环境中泛化能力有限。Zhou等人提出的静态-动态全局图表示[30]通过静态和动态子图来建模位置和速度状态,显式捕捉社会交互。然而,它假设图结构随时间相对稳定,难以适应由突发行为引起的快速交互变化。为了克服这些限制,超图提供了一种更具表现力的关系建模范式。与传统图不同,超边可以同时连接多个节点,从而自然地表示高阶和上下文感知的社会关系。基于超图的架构在交通流量预测[31]和大规模图像聚类[32]等领域表现出色。这一成功表明它们适用于建模行人交互中固有的复杂动态关系。
此外,传统方法通常将社会图的构建限制在静态空间范围内,而更精确的建模还应考虑速度和方向等行为属性。在图1所示的抢公交车场景中,传统的静态方法(左侧)未能识别出一个重要的干扰者“邻居4”(紫色)。尽管这个行人位于与目标行人预定义的固定距离之外,但由于两人朝对方移动,可能会触发碰撞或避让行为,这会显著影响目标行人的未来轨迹。相比之下,所提出的方法动态调整交互范围,并根据实时行为特征构建社会图(右侧)。这使得模型能够识别出像“邻居4”这样的行人,并赋予它们更高的注意力权重,从而提高预测精度。
为了解决这些挑战,我们提出了突发行为驱动的交互注意力模型(AB-DIAM),该模型基于超图Transformer架构构建。AB-DIAM包含三个核心模块,旨在检测和处理突发行为。动态社会交互范围调整(DSIRA)模块根据行人的行为属性调整交互范围,并构建更准确的社会图,克服了静态范围设计的限制。动态行为嵌入社会交互(DBESI)模块将行为特征嵌入节点属性,增强了模型检测突发行为变化的能力。突发行为交互注意力(ABIA)模块动态调整注意力权重,以更多地关注表现出突发行为的行人,确保准确捕捉邻居对目标行人未来轨迹的影响。实验结果表明,AB-DIAM在ETH-UCY基准测试中的表现显著优于现有方法,实现了更高的轨迹预测精度。本文的主要贡献如下:
  • 1.
    我们提出了AB-DIAM,通过DSIRA、DBESI和ABIA模块在多个维度上优化社会交互建模,提高了动态场景中的预测精度。
  • 2.
    我们设计了一种突发行为注意力评分算法,该算法利用图注意力机制和行为编码,动态捕捉行人速度和方向变化的时空依赖性,以实现精确的交互建模。
  • 3.
    在公共ETH-UCY数据集上的实验验证证明了所提出方法的优越性,在轨迹预测和领域泛化任务中显示出显著的优势。
  • 本文的其余部分组织如下。第2节回顾相关工作。第3节详细描述了所提出的AB-DIAM框架和突发行为注意力评分算法。第4节展示实验结果和分析,第5节总结研究并概述未来方向。

    相关研究

    行人轨迹预测的研究取得了显著进展,现有方法大致分为三类:基于生成模型的方法、基于RNN的方法和基于GNN的方法。本节回顾了这些领域的代表性工作,分析了它们的优势和局限性,为所提出的AB-DIAM提供了研究背景和动机。

    提出的方法

    现有的轨迹预测方法难以捕捉突发行为和复杂的社会交互,限制了它们在多样化场景中的泛化能力。为了解决这些挑战,我们提出了AB-DIAM框架,其中包括DSIRA、DBESI和ABIA模块。这些模块分别通过动态调整交互范围、嵌入动态行为特征和优化突发行为的注意力权重来提高预测精度。在以下部分中,我们将

    实验与分析

    本节评估了所提出的AB-DIAM在行人轨迹预测任务中的性能。我们将其与公共基准数据集上的现有方法进行了比较。我们还进行了详细的消融研究,以分析每个模块对整体性能的贡献,验证了所提出方法的有效性。

    结论

    本文提出了一种新颖的框架AB-DIAM,旨在通过解决建模突发行为和动态社会交互的挑战来提高行人轨迹预测的准确性。该框架的新颖之处在于其三个核心模块的协同作用:DSIRA动态调整交互范围,DBESI生成个性化行为嵌入,ABIA关注突发行为。这些模块共同使模型能够建模突发行为并动态

    CRediT作者贡献声明

    Jingchang Xie:撰写——原始草稿,验证,方法论。Beihai Tan:监督,资金获取,概念化。Rong Yu:监督,资源,概念化。Bailin Huang:可视化,调查。Yuanhao Han:调查,数据管理。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争财务利益或个人关系。

    致谢

    本工作得到了广东省重点领域研究与发展计划(2022B0701180001)的支持。
    Jingchang Xie是广东工业大学集成电路工程学院的研究生,她的研究专注于深度学习在轨迹预测和自动驾驶中的应用。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有