使用机器学习和变量重要性度量方法对自杀行为筛查工具进行评估

时间:2026年5月29日
来源:Journal of Affective Disorders

编辑推荐:

Nathan C. Carnes | James Zouris | Craig J. Bryan 美国加利福尼亚州圣地亚哥海军健康研究中心 摘要 在军事初级保健环境中,自杀筛查通常通过少量自我报告问题来进行。PRImary care Screening Methods (PR

广告
   X   

Nathan C. Carnes | James Zouris | Craig J. Bryan
美国加利福尼亚州圣地亚哥海军健康研究中心

摘要

在军事初级保健环境中,自杀筛查通常通过少量自我报告问题来进行。PRImary care Screening Methods (PRISM) 研究探讨了如何通过添加额外问题来提高这种筛查的预测有效性。本研究使用机器学习,特别是实现离散数据下采样的随机森林,来识别最重要的风险/保护因素。通过对1522名PRISM参与者的875个特征进行分析,发现在基线后12个月内有68.7%的准确率可以识别出自杀企图。使用变量重要性度量(VIMs)识别出的前五个特征包括:(1) “入睡或保持睡眠困难,或睡眠过多”;(2) “关于创伤事件有过噩梦或不想这样想”;(3) “时间管理”作为生活压力源;(4) “你是否曾经有过自杀的念头”;(5) “感觉别人嘲笑你”。对于每个特征,自助法风险比显示,选择第一个回答选项(表示强烈不同意)是一个保护因素。最重要的风险因素是选择最后一个回答选项(表示强烈同意)的“感觉别人嘲笑你”,当将其作为标准方法的补充时,可以提高初级保健自杀筛查的敏感性和特异性。这些发现强调了自我意识情绪和睡眠失调在自杀行为中的重要作用,并展示了机器学习方法在识别有自杀风险人群方面的实用性。

引言

军队自杀问题是国防部(DoD;SPRIRC,2023)非常关注的问题。自2011年以来,军队自杀率逐渐上升,2023年共有1373名现役军人报告了自杀企图,所有军种中共有523人自杀身亡(DSPO,2024)。即使在军人完成服役义务后,这些风险仍然存在。据估计,9%的退伍军人有过自杀念头,7.3%的人制定了自杀计划,3.9%的人实施了自杀企图(Nichter等人,2021)。自杀不仅对幸存者和死者造成严重影响,也对周围的人造成巨大创伤。接触过自杀事件的军人(Schmied等人,2023)和退伍军人(Cerel等人,2015)更有可能出现心理症状和自杀念头。家庭成员在自杀事件后也会经历严重的创伤和悲痛,增加了他们长期痛苦和精神障碍的风险(Cerel等人,2009)。为了解决这一复杂而多方面的问题,国防部采取了全面综合的自杀预防措施(SPRIRC,2023)。
一种推荐的方法是在初级保健环境中进行自杀风险筛查,因为门诊诊所是与高风险患者接触的现有渠道(Bryan等人,2019)。自杀的军人在死亡前60天内就诊率较高,其中45%的人在死亡前30天内与初级保健提供者有过接触(Trophimovich等人,2012;Luoma等人,2002)。常见的自杀风险筛查方法包括使用患者健康问卷-9(PHQ-9;Kroenke等人,2001),该问卷评估抑郁情况并包含自杀念头项目,或者在常规门诊访问期间使用更具针对性的Columbia-Suicide Severity Rating Scale(C-SSRS;Posner等人,2011)。不幸的是,尽管PHQ-9(Louzon等人,2016)和C-SSRS(Simpson等人,2021)具有预测性,但它们的准确性不足以用于临床应用(参见Belsher等人,2019)。
更具体地说,PHQ-9的特异性较低,这意味着太多假阳性被错误地标记出来,使其不适用于自杀风险筛查(Bryan等人,2019;Simon等人,2013)。Bryan等人(2019)进行了PRImary care Screening Methods (PRISM) 研究,以解决这一局限性并提高自杀风险筛查的预测有效性。从军队初级保健诊所招募的参与者在基线时完成了一系列调查,并在一年后通过结构化访谈报告了自杀行为(SB)。Bryan及其同事假设,修订版的自杀认知量表(SCS-R;Bryan等人,2021b)可以改善自杀风险评估,因为它衡量的是随时间更持久的潜在脆弱性;相比之下,自杀念头可能在较长时间内不具备预测性,因为它衡量的是急性或瞬间的自杀风险,这种风险可能在几小时内发生变化(Bryan等人,2023b;Kleiman等人,2017)。事实上,SCS-R在基线后1年内预测了最初否认有过自杀念头的PRISM参与者的自杀行为(Bryan等人,2023a),即使仅使用该量表中的一个项目,也能在基线后30-90天内提高自杀风险筛查的特异性,而不影响敏感性(Bryan等人,2021a)。
与这种自上而下的理论驱动方法不同,本研究试图使用自下而上的数据驱动方法来提高自杀风险筛查的预测有效性。越来越多的文献表明,向自杀行为的转变可能是非顺序的、动态的且突然的(例如,Bernanke等人,2017;Bryan等人,2020;Bryan和Rudd,2018)。机器学习(ML)模型可以表示许多相互作用数据元素之间的复杂非线性关系(Breiman,2001),因此可能非常适合表示与自杀行为相关的风险。实际上,几项最近的研究已经使用ML来预测军队中的自杀行为,并显示出准确性的提高(例如,Kessler等人,2017;Littlefield等人,2021;Stanley等人,2022)。
本研究利用ML(例如基于树的集成)、非线性数据表示(例如数据离散化)和克服类别不平衡的方法(例如自助法下采样)来使用PRISM研究数据预测自杀行为。本研究的目标是:(1) 评估算法自杀风险筛查的长期预测有效性;(2) 使用变量重要性度量(VIMs)识别自杀行为的风险/保护因素;(3) 识别候选项目,以改进未来的自杀风险筛查,与过去研究中提出的理论推导出的候选项目(即SCS-R)进行比较。

章节片段

方法

PRISM研究是一项多站点、前瞻性队列研究,参与者来自2015年7月至2018年8月期间美国六个军队初级保健诊所。这些诊所代表了不同类型的诊所(例如,小型社区诊所到大型医疗中心)和美国军队的五个分支(空军、陆军、海军、海军陆战队和海岸警卫队)。符合条件的参与者包括军人、退伍军人或受益人,他们在等待时完成了调查

下采样分类指标

尽管排除了社会人口统计特征的分析,大多数分类指标的准确率仍接近70%,表明其预测有效性良好,优于许多构建类似预测模型的先前研究。五个多重插补样本的平均分类指标显示在表1中。这可能与下采样导致数据平衡有关,所有分类指标都趋于一致。这也可能与缺失值较少有关,因此变化较小

讨论

本研究显示,算法自杀风险筛查可以在预测有效性方面取得实质性改进,完整模型的准确率约为70%(由于数据平衡,敏感性和特异性相似);为了说明这一点,F1分数——平衡敏感性和特异性——使用算法筛查时比单独使用PHQ-9时高出178%。我们的VIM分析还显示,睡眠和自我意识情绪(即内疚感)

伦理批准和知情同意声明

该研究方案获得了海军健康研究中心机构审查委员会的批准,符合所有适用的联邦法规,这些法规规定了人类受试者的保护。研究数据来自批准的海军健康研究中心机构审查委员会方案编号NHRC.2014.0046和NHRC.2023.0001。所有参与者都获得了知情同意。

CRediT作者贡献声明

Nathan C. Carnes:撰写——原始草稿,监督,方法论,数据管理,概念化。James Zouris:撰写——原始草稿,可视化,正式分析。Craig J. Bryan:撰写——审阅与编辑,资金获取,数据管理。

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作中没有使用任何AI辅助技术。

资金声明

该项目得到了国防部卫生事务助理部长办公室的支持,通过国防医学研究与发展计划(奖项编号:W81XWH-14-1-0272,负责人:Bryan)以及国防卫生局(工作单位编号:63378,负责人:Carnes)的支持。

利益冲突声明

Carnes和Zouris是美国政府的军人或雇员。这项工作是他们履行官方职责的一部分。根据美国法典第17条第105条,美国政府的工作不受版权保护。美国法典第17条第101条将美国政府的工作定义为军人或雇员在其官方职责范围内完成的工作。报告编号25-72得到了国防卫生的支持

生物通微信公众号
微信
新浪微博


生物通 版权所有