准确预测行人的未来轨迹对于自动驾驶和机器人导航等应用中的安全决策至关重要[1]、[2]、[3]、[4]、[5]。有效的轨迹预测不仅取决于个体的历史运动模式,还取决于行人之间的动态交互[6]、[7]、[8]。例如,在拥挤的环境中,一个行人的突然转弯或加速可能会引发附近其他人的连锁反应[9]。因此,在动态场景中有效建模行人的突发行为是轨迹预测任务的关键要求。
早期的轨迹预测研究集中在使用循环神经网络(RNN)[10]及其变体(如长短期记忆网络LSTM)[12]来建模人际交互和多模态行为,以捕捉时间依赖性。为了应对社会交互的复杂性,生成对抗网络(GAN)[13]和条件变分自编码器(CVAE)[14]被用来建模轨迹分布,产生社会上合理的预测。虽然这些基础方法[15]、[16]、[17]、[18]、[19]、[20]、[21]为该领域做出了重要贡献,但它们在捕捉时变特征(尤其是突发行为)方面的能力有限。此外,基于RNN的模型(包括LSTM和门控循环单元GRU)在多样化的场景中通常具有有限的泛化能力,导致在现实世界的动态环境中的鲁棒性降低[22]、[23]。
近年来,图神经网络(GNN)[24]因其强大的关系建模能力而成为轨迹预测的研究焦点。这些模型将行人及其交互视为图。它们使用图注意力网络[25]、[26]和时空图卷积网络[27]等方法,在复杂情况下表现非常好。例如,Liu等人提出的STAGP[28]使用时空自适应图池化网络来显式建模行人交互,减少了冗余交互的影响。然而,建模时间依赖性的高计算复杂性阻碍了其在实时应用中的适用性。同样,Gao等人提出的STGSTN[29]将稀疏变换器与时空图结构结合,以捕捉长期依赖性,但严重依赖训练数据的质量,导致在高度动态或拥挤的环境中泛化能力有限。Zhou等人提出的静态-动态全局图表示[30]通过静态和动态子图来建模位置和速度状态,显式捕捉社会交互。然而,它假设图结构随时间相对稳定,难以适应由突发行为引起的快速交互变化。为了克服这些限制,超图提供了一种更具表现力的关系建模范式。与传统图不同,超边可以同时连接多个节点,从而自然地表示高阶和上下文感知的社会关系。基于超图的架构在交通流量预测[31]和大规模图像聚类[32]等领域表现出色。这一成功表明它们适用于建模行人交互中固有的复杂动态关系。
此外,传统方法通常将社会图的构建限制在静态空间范围内,而更精确的建模还应考虑速度和方向等行为属性。在图1所示的抢公交车场景中,传统的静态方法(左侧)未能识别出一个重要的干扰者“邻居4”(紫色)。尽管这个行人位于与目标行人预定义的固定距离之外,但由于两人朝对方移动,可能会触发碰撞或避让行为,这会显著影响目标行人的未来轨迹。相比之下,所提出的方法动态调整交互范围,并根据实时行为特征构建社会图(右侧)。这使得模型能够识别出像“邻居4”这样的行人,并赋予它们更高的注意力权重,从而提高预测精度。
为了解决这些挑战,我们提出了突发行为驱动的交互注意力模型(AB-DIAM),该模型基于超图Transformer架构构建。AB-DIAM包含三个核心模块,旨在检测和处理突发行为。动态社会交互范围调整(DSIRA)模块根据行人的行为属性调整交互范围,并构建更准确的社会图,克服了静态范围设计的限制。动态行为嵌入社会交互(DBESI)模块将行为特征嵌入节点属性,增强了模型检测突发行为变化的能力。突发行为交互注意力(ABIA)模块动态调整注意力权重,以更多地关注表现出突发行为的行人,确保准确捕捉邻居对目标行人未来轨迹的影响。实验结果表明,AB-DIAM在ETH-UCY基准测试中的表现显著优于现有方法,实现了更高的轨迹预测精度。本文的主要贡献如下:
1.我们提出了AB-DIAM,通过DSIRA、DBESI和ABIA模块在多个维度上优化社会交互建模,提高了动态场景中的预测精度。
2.我们设计了一种突发行为注意力评分算法,该算法利用图注意力机制和行为编码,动态捕捉行人速度和方向变化的时空依赖性,以实现精确的交互建模。
3.在公共ETH-UCY数据集上的实验验证证明了所提出方法的优越性,在轨迹预测和领域泛化任务中显示出显著的优势。