超越常规:利用无监督学习识别罕见且高风险的行人交通事故模式

时间:2026年1月28日
来源:Accident Analysis & Prevention

编辑推荐:

行人安全仍是重大挑战,尽管基础设施和交通安全措施持续改进。本研究提出结合UMAP降维与HDBSCAN聚类的新型边缘案例检测框架,基于北卡罗来纳州10,108例警方报告行人事故数据,将事故分为Core(常规)、Moderate Edge(中等边缘)和Strong Edge(高危边缘)三层。结果显示,Strong Edge案例致命率高达36.6%,显著高于Core层的8.1%,且多发生于农村、照明不足、非交叉口及存在异常行为的场景。该方法通过无监督学习识别传统方法易遗漏的罕见高危事故组合,为差异化安全干预提供依据。

广告
   X   

Zeinab Bayati|Asad J. Khattak
美国田纳西大学诺克斯维尔分校土木与环境工程系

摘要

尽管基础设施和安全措施有所改善,行人安全问题仍然十分突出,死亡人数仍在上升。为了取得实质性进展,应更加专注于减少最危险和致命的交通事故案例,因为传统车辆安全技术和自动化车辆安全技术在事故结果中起着越来越重要的作用。本研究提出了一种复合的无监督边缘案例检测框架,该框架结合了均匀流形近似与投影(UMAP)进行降维处理,以及基于层次密度的空间聚类算法(HDBSCAN)。每起事故都会根据其所属簇的不确定性以及与UMAP空间中典型事故模式的距离获得一个综合评分。根据这些评分,事故被分为三个层次:核心层(Core)、中等边缘层(Moderate Edge)和强边缘层(Strong Edge)。核心层代表常见的事故模式,而强边缘层则反映了罕见和复杂的情况。该框架应用于北卡罗来纳州10,108起由警方报告的事故数据,这些数据通过行人及自行车事故分析工具(PBCAT)进行编码,这是一个相对完整的行人事故数据库。研究比较了这三个层次中的事故严重程度和情境特征。强边缘层的事故严重程度明显更高,其中36.6%的事故导致了致命伤害,而核心层的事故中这一比例为8.1%。这些高风险事故通常发生在照明条件较差的农村地区、非交叉路口,并涉及一些特殊行为,如穿越高速公路。研究结果表明,建筑环境及事故类型会影响行人事故的模式。这种边缘案例检测框架有助于发现传统方法容易遗漏的罕见高风险事故,从而支持有针对性的安全措施。

引言

尽管近年来车辆技术、道路基础设施和交通安全政策取得了显著进展(美国国家公路交通安全管理局[NHTSA],2023年),交通运输系统在行人安全方面仍面临挑战。根据州长公路安全协会(GHSA)的数据,过去十年美国行人死亡人数增加了48%。虽然改进的人行横道、交通缓和措施、自动化车辆系统及公共教育活动旨在降低风险,但行人事故仍受到环境、行为和情境因素的复杂影响,而这些因素并非传统策略所能完全解决。
过去几十年中,研究人员研究了导致行人事故的多种因素。其中一些因素,如驾驶员分心、超速或系统故障,已通过技术创新得到部分缓解(Bayati和Khattak,2026年;Bayati等人,2025年),以及基础设施的改进(Cicchino,2022年;Tefft和Arnold,2017年;Zegeer,2002年)。尽管许多进步提升了交通安全,但建筑环境在影响行人事故结果方面仍起着重要作用(Dadashova等人,2024年)。道路几何形状、照明条件、限速、土地利用和行人基础设施等因素仍然至关重要,往往需要进一步改进(美国国家公路交通安全管理局[NHTSA],2023年;Usman和Khattak,2025b;Usman等人,2025年)。这些环境因素不仅影响事故的发生概率,还影响事故的严重程度,对驾驶员、乘客和行人都会造成影响(Miranda-Moreno等人,2011年)。
某些因素,如照明、限速、恶劣天气和道路布局,常常导致严重的行人事故(Qiu和Nixon,2008年;Usman和Khattak,2025b)。然而,当这些因素以罕见或不可预测的方式相互作用时,理解事故风险会变得更加复杂。传统的事故分析通常关注平均趋势或假设统一模式,这可能会掩盖许多现实世界事件中的独特情况(Skaug等人,2025年)。虽然有些事故发生在熟悉的环境中,如有人行横道的地点,但其他事故则发生在非典型情况下,涉及多种因素的结合,例如照明不良的农村道路或不可预测的行人行为(NHTSA,2008年)。这些罕见的“边缘案例”情况超出了常见模式,可能会被标准模型和政策忽略,尽管它们往往带来最高风险(Mannering等人,2016年;Moradloo等人,2024年)。识别和分析这些案例对于提高行人安全至关重要,尤其是在道路设计和条件对行人风险有重大影响的复杂建筑环境中。
本研究提出了一种新的边缘案例检测框架,利用包含10,108起由警方报告的事故数据的综合数据集(根据北卡罗来纳州的行人及自行车事故分析工具[PBCAT]进行编码,联邦公路管理局[FHWA],2022年)来识别和描述不寻常的行人事故情况。通过采用无监督学习方法,包括均匀流形近似与投影(UMAP)和基于层次密度的空间聚类算法(HDBSCAN)(McInnes等人,2017年),我们根据簇的不确定性和与典型模式的距离生成了一个综合异常评分。然后,事故被分为三个层次:核心层、中等边缘层和强边缘层。这种无监督结构允许事故数据本身形成有意义的组别,而无需依赖事故的严重程度或预定义的标签。此外,与基于频率的方法不同,该框架能够识别不寻常的多变量事故模式,而不仅仅是某个条件出现的频率。这使得即使数据集中某些元素较为常见,也能清晰地发现罕见但高风险的事故组合。本研究旨在回答以下研究问题:
  • 1. 如何使用无监督学习技术来检测偏离典型模式的边缘案例行人事故?
  • 哪些建筑环境和情境特征与这些边缘案例事故相关?
  • 边缘案例事故的伤害严重程度是否与更典型的事故情况有所不同?
通过回答这些问题,本研究将边缘案例的状态与事故严重程度和建筑环境的特征联系起来。该研究为政策制定者、工程师和研究人员提供了新的见解,以便在行人安全风险最高的复杂或代表性不足的情况下更好地优先考虑干预措施。

文献综述

行人安全研究始终强调建筑环境特征对事故风险和严重程度的重要影响。许多研究表明,城市形态的各个要素(如道路设计、交叉口密度、照明条件、行人活动等)与行人事故结果之间存在关联(Clifton等人,2009年;Miranda-Moreno等人,2011年;Soto等人,2022年;Usman和Khattak,2025a;Yu,2024年;Zahabi等人,2011年)。然而,传统

方法论

本研究提出了一种复合边缘案例检测框架,用于识别罕见和异常的行人事故。我们应用了包括降维和基于密度的聚类在内的无监督学习技术,处理了详细的警方报告的行人事故数据集。该方法包括五个主要阶段:(1)数据预处理和特征选择,(2)使用UMAP进行降维,(3)通过HDBSCAN进行基于密度的聚类

数据

本研究使用了北卡罗来纳州10,108起由警方报告的行人事故记录,这些记录使用了PBCAT(FHWA,2022年)进行编码。数据集涵盖了2018年至2022年间发生的事故。每条记录包含有关事故情境的详细信息,包括建筑环境特征(如道路类型、交叉口类型、交通控制、限速、照明)、驾驶员和行人属性(如年龄、是否饮酒)、以及情境因素(如天气、时间等)

结果

结果分为三个部分。首先,层次结构概述了模型的结果,并对我们的方法进行了验证。接下来,我们描述了每个层次中的数据,强调了各层次之间的差异以及变量在这些层次中的分布情况。最后,基于情境的结果部分展示了每个层次中最重要的变量组合,定义了核心层、中等边缘层和强边缘层的典型情况。

讨论

本研究提出了一种新颖的混合聚类方法,利用10,108起由警方报告的事故数据(使用PBCAT编码),有效地将行人事故分为核心层、中等边缘层和强边缘层。与传统的频率模型(如有序逻辑回归或probit模型)不同,这些模型估计单个变量与伤害严重程度之间的关系(Savolainen等人,2011年),我们的方法旨在识别和描述边缘案例,即罕见但高风险的事故

局限性

需要指出几个局限性。首先,我们的分析依赖于使用PBCAT工具处理和验证的警方报告数据。PBCAT的编码人员可以访问事故描述;然而,PBCAT数据可能低估了某些行人行为,错误分类了事故情况,并在部分基于叙述解释的事故类型分类中引入了主观性。其次,研究团队没有直接使用事故描述或暴露数据

结论

研究表明,无监督学习可以是捕捉偏离常见模式的边缘案例行人事故的强大工具。具体来说,通过结合使用UMAP进行非线性降维和HDBSCAN进行基于密度的聚类,我们能够将行人事故有效地分为三个不同的层次,并检测出最不寻常和最高风险的事故。通过结合与核心质心的距离创建了一个综合异常评分

关于写作过程中生成式AI和AI辅助技术的声明

在准备本论文的过程中,作者使用了Grammarly和OpenAI的ChatGPT来提升写作质量并提高整篇手稿的清晰度。使用这些工具/服务后,作者根据需要对内容进行了审查和编辑,并对发表文章的内容负全责。

CRediT作者贡献声明

Zeinab Bayati:写作——审阅与编辑、初稿撰写、可视化、验证、软件使用、资源整理、方法论制定、调查、数据分析、概念化。Asad J. Khattak:写作——审阅与编辑、监督、项目管理、方法论制定、调查、资金筹集、数据分析、概念化。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了USDOT资助的Tier 1 大学交通中心——行人及自行车安全中心(CPBS)的支持,资助编号为69A3552348336

生物通微信公众号
微信
新浪微博


生物通 版权所有