摘要
目的:本研究旨在开发并评估一个双层机器学习框架,该框架结合了入院时的临床信息与纵向的护理观察数据,以识别有自伤或自杀行为高风险的精神分裂症住院患者。
方法:我们回顾性分析了2021年7月至2024年7月期间在辽宁省住院的477名精神分裂症患者的记录。根据患者在入院期间是否至少有一次自伤或自杀事件,将159人归类为高风险组,318人归类为非高风险组。入院时,从电子病历中提取了18个基线变量(包括年龄、性别、自伤史、绝望/抑郁情绪和教育水平),并使用《精神病患者护理观察量表》每周对39项护士评估的行为指标进行评分。使用静态和动态特征集训练了六个分类器[正则化逻辑回归(LR)、支持向量机(SVM)、极端梯度提升、随机森林、多层感知器和K最近邻]。通过概率级加权融合,将最佳的静态模型(正则化LR)和最佳的动态模型(SVM)结合起来,生成了一个分层风险评分。
结果:对入院特征的多元分析显示,之前的自伤行为[比值比(OR)= 4.323]、绝望/抑郁情绪(OR = 3.090)、较年轻的年龄(OR = 0.938)和较高的教育水平(OR = 1.357)是自伤/自杀行为的独立预测因素。在动态指标中,负面自我评价(OR = 2.303)、自我报告的抑郁(OR = 1.812)、失眠(OR = 1.768)、自言自语(OR = 1.733)、哭泣(OR = 1.700)以及与他人交流减少(OR = 1.422)仍然具有显著性。优化的静态LR模型获得了0.7564的曲线下面积(AUC),动态SVM模型达到了0.8531的AUC。它们的融合进一步提高了性能(AUC = 0.9048;敏感性0.8542;特异性0.7789;准确性0.8042)。这种分层模型在敏感性方面优于最佳的平面组合特征模型(SVM;AUC = 0.9022;敏感性0.8542 vs 0.6667),表明能够更准确地检测出高风险患者。
结论:一种将基线临床历史与重复护理评估相结合的分层机器学习方法可以有效地识别有自伤和自杀行为高风险的精神分裂症住院患者,支持在精神科病房中及时和个性化的预防策略。
1 引言
精神分裂症是一种慢性且致残的精神疾病,患者的感知、思维、情绪和行为都受到严重影响。自杀是这一群体中早死的主要原因,也是重要的公共卫生问题。荟萃分析表明,大约5%的精神分裂症患者最终会自杀,且有一半到四分之一的患者在生命中至少尝试过一次自杀(1, 2)。最近基于人群的研究显示,与普通人群相比,精神分裂症患者的自杀死亡率高出数倍,尤其是在年轻成人中绝对和相对风险最高(3)。在精神病医院内,自杀倾向尤为突出:汇总估计显示,大约三分之一的精神分裂症住院患者报告有当前的自杀念头,且相当一部分自杀事件发生在入院期间或出院后不久(4, 5)。这些发现强调了需要实用且准确的工具来识别有自伤或自杀行为高风险的精神分裂症住院患者。
过去几十年的研究确定了精神分裂症中自杀念头和行为的多种相关因素。反映相对持久脆弱性的静态风险因素包括较年轻的年龄、之前的自杀尝试或自伤事件、抑郁或情感症状、多次住院治疗以及共病物质使用障碍(2, 6)。虽然这些风险标志物在疾病过程中往往保持稳定,但动态或状态依赖的变量与自杀风险的短期变化更为紧密相关。后者的例子包括绝望和抑郁症状的出现或恶化、烦躁、失眠、社交接触的减少以及精神病体验的加剧(1, 5)。然而,在日常临床工作中,这些静态和动态信息来源通常被单独且主观地考虑。临床医生可能会非正式地将历史风险标志物与当前症状结合起来,但在繁忙的病房环境中系统地整合这两个领域的许多特征仍然很困难。为了帮助临床医生,设计了几种结构化的工具来评估自杀风险。广泛使用的例子包括贝克自杀意念量表(BSS/BSSI)和哥伦比亚自杀严重程度评定量表(C-SSRS)(7, 8)。这些工具有助于标准化关于自杀意念和行为的信息收集,但系统评价表明,它们的预测性能仅中等,且它们在区分哪些患者后来会自伤或自杀方面的能力有限(7, 9)。最近,如牛津精神疾病和自杀(OxMIS)工具这样的精算模型已经开发出来,使用预先指定的临床和社会人口统计变量来估计严重精神障碍患者的自杀风险(10, 11)。然而,这些方法主要依赖于静态的基线信息,仅提供风险的一个快照;它们没有利用住院治疗期间常规可用的丰富纵向行为数据,例如重复的护理观察结果,如情绪、社交互动和日常功能。
机器学习(ML)方法为自杀风险预测提供了另一种途径,并且原则上可以比传统量表更有效地利用大型和异构的临床数据集。大量文献应用ML技术于电子健康记录、叙述性临床笔记和其他常规收集的信息,以预测自杀意念、自杀尝试和自杀死亡(12, 13)。基于大型普通人群或精神科队列的研究报告称,当结构化的临床变量与行为或文本衍生特征结合时,ML模型在区分高风险个体方面可以胜过临床医生的判断(14–16)。然而,该领域仍存在争议:系统评价指出,许多已发表的模型存在高偏差风险或不清楚的风险,外部验证有限,预测准确性并不始终超过传统风险量表(17, 18),并且这些模型的临床实用性很少得到证明(12)。尽管许多模型是在广泛的精神科或普通人群队列中开发的——这是进行人群水平风险分层的有效方法——但相对较少的模型专门针对精神分裂症患者或风险特别高的住院环境(13)。一个值得注意的例外是Qiao等人的工作(19),他们将ML模型应用于131名精神分裂症住院患者的护士评估行为数据,发现结构化的护理观察对自杀风险预测有显著贡献,尽管样本量较小限制了普遍性。此外,大多数已发表的ML模型采用了一种所谓的平面架构,其中静态和动态预测因子作为单一特征向量一起输入,而不是分阶段建模。虽然这些模型原则上可以通过学习到的特征组合捕捉持久脆弱性和短期症状变化之间的相互作用,但它们并没有明确区分这一点,这可能限制了临床可解释性和追踪基线风险如何被近期行为波动修改的能力。
在我们之前关于暴力风险的研究中,我们提出了一个分层ML模型来解决相关问题,该模型结合了静态临床历史和动态护理观察,以预测住院精神分裂症患者的暴力事件(20)。在该框架中,长期脆弱性(静态风险)和短期行为变化(动态风险)由两个独立的子模型捕获,它们的输出使用决策级加权融合策略合并。这种设计在预测性能和可解释性方面都优于传统的平面模型,并反映了临床医生通常对风险的思考方式:首先根据背景历史形成印象,然后根据患者临床状态的近期变化进行调整。尽管自伤/自杀行为和人际暴力是具有不同临床意义的不同结果,但两者都可以理解为持久脆弱因素和急性状态依赖触发因素之间的相互作用的结果。
本研究直接基于之前的工作,将分层建模框架从人际暴力扩展到精神分裂症住院患者的自伤和自杀行为。使用更大的住院患者队列,我们将入院时的静态变量(包括自伤史、绝望或抑郁情绪、年龄和教育水平)与来自每周护士评估的动态指标(如负面自我评价、自我报告的抑郁、哭泣、失眠、自言自语和与他人交流减少)结合起来。通过重用之前验证的架构同时改变结果并细化特征集,我们试图:(i)检验相同的静态和动态风险信息分离是否可以准确预测自伤和自杀行为;(ii)比较独立风险因素及其对暴力行为的相对贡献;(iii)开发一个临床可解释的、数据驱动的工具,利用常规护理观察来支持精神科住院患者的及时、个性化预防干预。
本文的主要贡献可以总结如下。首先,我们组装了一个详细的住院患者数据集,将电子病历与高分辨率的护理观察数据联系起来,以描述住院精神分裂症患者的自伤和自杀行为。其次,我们将之前验证的分层ML框架扩展到这一新结果,在决策层明确分离和重新组合静态和动态风险组件。第三,我们展示了所得模型在自伤和自杀行为方面的强大区分性能,并提供了长期脆弱性和短期预警信号的可解释性概况,这些信息可以为有针对性的临床风险管理提供依据。
2 材料与方法
本节概述了用于构建精神分裂症住院患者自伤和自杀行为分层预测器的研究设计、数据来源和建模工作流程。我们首先描述了临床环境和抽样策略,指定了纳入和排除标准,并总结了研究队列的基线特征。然后概述了数据的收集和组织方式,区分了入院时的临床信息(静态特征)和住院期间护士反复评估的行为信息(动态特征)。接下来介绍了结果的定义,以及根据记录的自伤或自杀尝试将患者分配到高风险组或非高风险组的程序。随后,我们总结了模型构建之前的主要预处理操作,包括数据清洗、处理缺失值、分类变量编码、特征缩放以及将数据集分为单独的训练集和测试集。以下小节详细介绍了分层模型的规范:为静态和动态特征构建基线统计和机器学习模型,基于交叉验证的超参数调整,以及在决策层组合模型输出。最后,我们描述了用于在保留的测试集上评估模型的性能指标和分析程序,以检验其泛化能力和临床风险评估的潜在用途。
2.1 研究人群
2.1.1 研究环境和资格标准
我们在辽宁省的一家精神病医院进行了一项回顾性观察研究,该医院为精神分裂症患者提供专门护理。使用医院的电子病历(EMR)系统,我们识别了2021年7月至2024年7月期间所有入住精神分裂症病房的患者。符合以下标准的个体有资格纳入研究:(1)根据《国际疾病分类》第10版(ICD–10)记录的主要诊断为精神分裂症;(2)入院时年龄在18至65岁之间;(3)住院时间超过2周;(4)在入院期间至少完成了两次《精神病患者护理观察量表》的评估。
我们排除了患有严重或不稳定的身体疾病、有机脑病理或其他可能显著影响精神症状或自伤/自杀行为评估的神经系统疾病的患者。为了确保动态行为特征代表任何自伤事件之前的时期,我们还排除了首次记录的自伤或自杀行为发生在住院第一周内的病例,因为这些患者缺乏足够的事件前护理观察数据用于模型开发。应用这些纳入和排除规则后,477名精神分裂症住院患者构成了后续分析的最终分析样本。
2.1.2 人口统计和临床基线特征
最终分析共纳入了477名精神分裂症住院患者。他们的平均年龄为41.62 ± 10.43岁,所有参与者的年龄都在18至65岁之间。其中260名患者(54.51%)为男性,217名(45.49%)为女性。大多数患者未婚(75.26%),并且大多数患者在入院时被记录为有工作(82.39%)。在教育水平方面,229人(48.01%)完成了高中或更高层次的教育,而248人(51.99%)仅完成了初中或更低的教育。疾病的中位持续时间为8年,四分位距为4-18年。住院期间的平均长度为4.46 ± 1.87周。156名患者(32.70%)有物质滥用史,151名患者(31.66%)曾尝试自杀或进行自伤行为。
2.2 数据收集
2.2.1 数据来源和组成
本研究完全依赖于医院临床信息系统中常规记录的信息。使用了两个主要的数据流:(i)医院的电子病历(EMR)系统;(ii)来自精神病患者护理观察量表(Psychiatric Patient Nursing Observation Scale)的护士评分。这些来源共同提供了两组互补的特征集。从EMR中,我们获得了包括社会人口统计特征和入院时记录的基线临床历史在内的静态变量。从护理观察量表中,我们得出了基于住院期间每周评分的动态变量,反映了症状的短期波动、日常功能以及病房内的行为。以下小节将描述每个特征集中包含的具体变量及其选择理由。
2.2.2 静态特征:临床历史
从EMR中回顾性地提取了18个入院时的变量,以代表每位患者的基线临床概况。这些静态特征涵盖了社会人口统计信息和长期的临床历史,包括:年龄、性别、婚姻状况、教育水平、就业状况、人格特质(例如内向与外向)、疾病持续时间、酒精或药物滥用史、之前的自杀尝试或自伤事件、高危命令性幻觉的存在、迫害性妄想、思维过程紊乱、感觉和感知异常、临床医生对整体智力功能的评估、注意力问题、记忆障碍,以及入院时的绝望或抑郁情绪和躁狂症状。选择这18个变量是基于先前的元分析和临床证据,这些证据将人口统计因素(年轻年龄、社会劣势)、临床历史(之前的自伤、物质滥用、绝望感)、精神病症状(命令性幻觉、迫害性妄想)和认知指标与精神分裂症和严重精神疾病的自杀风险联系起来(1, 2, 6, 11, 21)。
2.2.3 动态特征:护理观察量表
动态行为信息是通过精神病患者护理观察量表获得的,这是一个由病房护士常规填写的结构化评分表。该工具源自Honigfeld及其同事最初创建的Nurses’ Observation Scale for Inpatient Evaluation (NOSIE–30),用于量化精神科住院患者的行为,并在多个临床和文化背景下得到了验证(22–24)。与我们之前关于精神分裂症暴力风险的研究(20)一致,我们使用了扩展版的量表,将原始的30个项目增加到39个,增加了具有临床意义的指标(例如对疾病的认识、表达出院愿望),从而提供了更详细的病房日常功能图景。对于每位患者,主治护士每周对所有39个项目进行一次评分,评分范围为4分(0 = 正常/不存在,3 = 严重/最异常),总结了行为发生的频率和强度。评分通常在周五下午完成,基于从周六到周五的连续观察。这些项目涵盖了广泛的领域:遵守病房规则;个人物品的护理;参与病房活动(如整理床铺、清洁、职业治疗、娱乐项目和锻炼);着装是否适合环境温度;自我报告的身体不适;与家人、同伴和工作人员的互动模式;情绪表达和对幽默的反应;个人卫生(例如洗脸、刷牙、洗脚、理发、如厕和月经卫生);饮食习惯;以及可观察到的精神病理学表现。一些项目与自伤和自杀风险特别相关,包括抑郁特征(情绪低落、哭泣、负面自我评价)、睡眠障碍、社交参与指标以及精神病性或精神运动现象。先前的研究已将这些领域与精神分裂症中的自杀意念和行为联系起来(1, 2, 25, 26)。
2.3 患者分组
2.3.1 自伤和自杀行为的操作定义
在这项研究中,感兴趣的结果是在住院期间发生的自我导向的自伤行为。我们采用了与WHO和NICE指南(27, 28)一致的自伤宽定义:任何在住院期间故意进行的自我中毒或自我伤害行为,不论是否有明确的自杀意图。当满足以下条件时,事件被编码为存在:(1)该行为针对患者自身的身体,并且有明确的造成身体伤害的潜力;(2)临床医生判断该行为是故意的;(3)该事件在医疗记录中被记录为自伤、自杀尝试或故意自我伤害。
包括的行为示例:被归类为自伤/自杀行为的例子包括但不限于:故意割伤或刺伤皮肤;试图上吊、勒死或使用绳索或其他材料窒息;从高处跳下或试图跳入车流中;故意过量服用处方药或非处方药超过治疗剂量;故意摄入有毒物质(如消毒剂、杀虫剂或其他化学物质);以及其他明确记录的旨在伤害自己的故意行为。无论这些事件是否导致医疗治疗、失去意识或严重的身体并发症,只要存在伤害潜力,都会被编码为存在。
2.3.2 分组过程和标准
使用了一个结构化的多步骤程序,根据上述操作定义将患者分为高风险(自伤/自杀)组和非高风险组。
评分者和校准:两位具有自杀风险评估经验的执业精神科医生作为独立评分者。在审查病历之前,他们共同回顾了研究中的自伤/自杀行为的操作定义,并讨论了示例案例,以确保对纳入和排除标准有共同的理解,参考了来自自我导向暴力分类系统和自杀风险评估工具的既定术语(27, 29, 30)。
记录审查和事件识别:对于每位参与者,评分者独立检查了住院期间的完整电子病历,包括入院记录、病情进展记录、护士值班报告和不良事件或事故表格。审查重点是对自我导向伤害或中毒的叙述性描述。为了尽量减少遗漏的病例,评分者还在电子记录系统中使用关键词搜索(例如“自伤”、“自我伤害”、“自杀尝试”、“过量”、“割伤”、“上吊”)来标记潜在事件以进行更仔细的检查。
事件编码和一致性:每个识别的事件都根据2.3.1节中的操作定义进行评估,并被编码为符合或不符合自伤/自杀行为的标准。在两位评分者完成独立审查后,比较了编码表。对于评分不一致的病例,在共识会议上重新审查,评分者共同审查原始文件以解决分歧。当无法就是否存在符合条件的事件达成共识时,采用更为保守的判断(即“无自伤事件”)。
2.3.2 分组分配
在解决分歧后,每位患者获得了最终的结果标签。任何在住院期间至少经历过一次(≥1次)符合自伤/自杀行为标准的个体被归类为高风险组;没有任何符合条件的自伤或自杀事件的患者被归类为非高风险组。根据这一方案,477名患者中有159名被分配到高风险组,其余318名被分配到非高风险组。这两组的基线人口统计和临床特征在表1中总结。
表1 特征
类别或单位 高风险组(n=159) 非高风险组(n=318) 总计(n=477)
年龄 年龄 38.02 ± 8.81 43.42 ± 10.72 41.62 ± 10.43
疾病持续时间 年数 7(4, 16) 9(4, 18) 8(4, 18)
性别 男性 74(46.54%) 186(58.49%) 260(54.51%) 女性 85(53.46%) 132(41.51%) 217(45.49%)
婚姻状况 已婚 35(22.01%) 83(26.10%) 118(24.74%) 未婚 124(77.99%) 235(73.90%) 359(75.26%)
就业状况 有工作 129(81.13%) 264(83.02%) 393(82.39%) 无工作 30(18.87%) 54(16.98%) 84(17.61%)
教育水平 高中及以上 90(56.60%) 139(43.71%) 229(48.01%) 初中及以下 69(43.40%) 179(56.29%) 248(51.99%)
物质滥用史 有 62(38.99%) 94(29.56%) 156(32.70%) 无 97(61.01%) 224(70.44%) 321(67.30%)
自杀史 有 82(51.57%) 69(21.70%) 151(31.66%) 无 77(48.43%) 249(78.30%)
自伤/自杀组和非自伤/自杀组的患者特征分布。
2.4 数据预处理
2.4.1 数据集划分
对于所有分析,我们使用了数据集的单一训练-测试划分(N = 477)。使用唯一的患者标识符,通过分层抽样将患者随机分配到训练集(n = 334;111例高风险,223例非高风险)和独立测试集(n = 143;48例高风险,95例非高风险),保持两个子集之间的类别比例。训练数据用于模型构建的每个阶段——特征筛选、单变量和多变量分析、模型拟合和超参数优化。测试数据被保留起来,直到建模和融合程序完成,然后使用它们来获得对未见患者的无偏预测性能估计。在整个实验过程中保持这种固定的划分有助于防止信息泄露,并使报告的结果更容易复制。
2.4.2 数据清洗
在构建分析数据集之前,我们进行了一系列质量检查,以确保数据适合分析。不符合纳入标准的病例(例如,住院时间不足、完成的护理观察评估少于两次或缺少关键诊断信息)在筛选阶段被移除。对于剩余的记录,必要时对自由文本条目进行了标准化处理,例如将疾病持续时间的叙述性描述转换为数值年份。所有变量都检查了不合理的值(例如,年龄超出18-65岁范围、疾病持续时间为负数或护理观察评分超出有效的0-3范围)和明显的数据输入错误;尽可能根据原始医疗记录纠正这些值,或者按以下描述将其视为缺失并进行插补。所有变量的缺失比例都非常低(任何单个变量的缺失比例<1%)。尽管如此,为了确保完整的分析数据集,我们使用了基于分布的简单插补方法:连续变量(例如年龄和疾病持续时间)用训练集的中位数进行插补,分类变量(如婚姻状况、就业状况、物质滥用史和自杀史)用训练集中最常见的类别进行插补。这种方法保留了数据的整体结构,同时限制了缺失对模型拟合的影响。
2.4.3 数据编码
在建模之前,非数值变量被转换为适合标准机器学习算法的格式。具有两个类别的临床和社会人口统计变量(如性别、婚姻状况、就业状况、物质滥用史、自伤或自杀史以及包括命令性幻觉和迫害性妄想在内的关键精神病症状)用二进制指标表示,0表示不存在,1表示存在。有序分类变量使用保留其排名的整数值重新编码。对于教育程度,我们定义了一个四级量表,其中0表示小学及以下,1表示初中,2表示高中或职业培训,3表示大学或以上,因此较大的代码反映了更高的教育水平。人格(内向与外向)也被视为二分变量并相应编码。所有编码方案都进行了手动检查,任何不合理或超出范围的条目都被纠正或删除。护理观察量表中的39个项目已经记录在0-3的序数尺度上,因此除了确保它们作为数值变量存储外,不需要额外编码。
2.4.4 规范化
在编码之后,我们将连续和准连续变量转换为适合标准机器学习算法的格式。这一步对于对特征尺度敏感的算法尤为重要,例如基于距离的方法和基于梯度的优化程序。我们应用了仅从训练集计算的标准z分数规范化。具体来说,对于每个连续特征(包括年龄、疾病持续时间和从护理观察量表得出的汇总分数),我们减去了训练集的平均值并除以训练集的标准差。结果标准化特征在训练数据中的平均值为0,标准差为1。然后将相同的转换参数应用于测试集,确保测试数据的信息不会泄露到训练过程中。
2.5 模型构建
2.5.1 预测任务定义
建模的目的是预测每位住院的精神分裂症患者在当前住院期间是否会至少进行一次自伤或自杀行为。我们将这个问题视为一个二元分类问题。结果变量被编码为1,表示患者至少有一次记录在案的自我伤害/自杀事件(高风险组),编码为0表示没有此类事件的患者(非高风险组)。为了反映临床医生通常将长期背景信息与短期临床变化相结合的方式,我们将预测分解为两个互补的部分,然后合并它们的输出:
**静态风险模型**。该部分使用第2.2.2节中描述的18个入院时变量作为输入。它返回一个概率R0,表示给定患者属于高风险组,旨在捕捉相对稳定的长期脆弱性。
**动态行为模型**。该部分基于第2.2.3节中描述的39个行为指标。对于后来出现自我伤害/自杀行为的患者,将首次符合条件事件之前的所有每周评分平均起来,形成一个39维的总结向量;对于没有此类事件的患者,则将整个住院期间的每周评分平均起来。根据这个总结向量,模型输出一个概率Rdyn,表示患者在观察窗口期间的整体行为和症状状态。
然后通过线性融合在决策层合并这两个风险估计值:
$$R^* = \alpha R_0 + (1-\alpha) R_dyn,$$
其中$\alpha \in [0,1]$是在训练数据上选择的权重参数。对$R^*$应用一个概率阈值(默认为0.5),得到每个患者的最终二元预测$\hat{y}$(如果$R^* \geq 0.5$,则$\hat{y} = 1$;否则$\hat{y} = 0$)。
从概念上讲,这种分解与临床推理相平行:长期风险因素,如之前的自杀行为、慢性抑郁症状和不利的社会环境提供了一个基线关注水平,然后通过最近几周的情绪、睡眠、人际功能和病房行为等当前信息进行修改。明确区分“静态”和“动态”组成部分使层次模型更加透明,并帮助临床医生解释不同信息来源如何贡献于最终的风险估计。
**2.5.2 统计关联分析和基线逻辑回归**
为了获得自我伤害/自杀风险的透明基准,并识别独立预测因子,我们首先构建了逻辑回归(LR)模型。LR是一种广泛用于二元结果的监督学习方法;它将事件概率的对数几率表示为预测因子的线性组合,然后应用逆对数几率(Sigmoid)函数将这个值映射到[0,1]范围内。因为模型系数可以直接解释为比值比,LR提供了一个直观的参考,可以用来比较更灵活的机器学习方法。
**2.5.2.1 第1阶段:单变量筛选**
我们首先进行了单变量分析,有两个目标:首先,识别并量化候选风险因素与自我伤害/自杀行为之间的个体关联,提供具有95%置信区间的临床可解释的效果大小(比值比),这些效果大小本身就有信息价值;其次,为后续的多变量建模选择一组简洁的候选变量。此阶段的所有统计分析都是在Python 3.10中使用pandas、NumPy、SciPy和statsmodels库进行的。
**单变量组比较**。对于连续变量,使用Kolmogorov–Smirnov检验来检查正态性。如果数据满足正态性和方差同质性假设,则使用独立样本t检验来检查高风险组和非高风险组之间的差异;当这些假设被违反时,我们使用Wilcoxon秩和检验。分类变量根据情况使用卡方检验或Fisher精确检验进行比较。
**单变量逻辑回归**。为了量化每个单独预测因子与结果之间的关联,在训练集上为每个静态和动态特征分别拟合了一个LR模型。从这些模型中我们得到了比值比(OR)和95%置信区间(CI)。在单变量分析中P< 0.05的特征被认为是潜在相关的,并被带入多变量阶段。
**2.5.2.2 第2阶段:多变量逻辑回归**
由于单变量关联可能会被预测因子之间的相关性扭曲,接下来我们构建了多变量LR模型来识别与自我伤害/自杀风险独立相关的变量。使用statsmodels中的Logit函数,我们在训练数据上为静态和动态特征集分别拟合了多变量模型。因变量是二元自我伤害/自杀标签(1 = 高风险,0 = 非高风险),协变量是在单变量筛选中达到显著性的那些特征。回归系数被指数化以得到带有95% CI的调整后的OR;P< 0.05的变量被认为是统计上显著的。这一步产生了一组独立贡献于结果的静态和动态预测因子的紧凑子集。
**2.5.2.3 第3阶段:正则化LR子模型和层次得分**
在第1和第2阶段识别出独立显著的预测因子后,我们现在从统计关联分析过渡到预测建模。下面描述的正则化LR子模型,以及第2.5.3节中介绍的额外机器学习分类器,共同构成了层次框架的预测部分。然后使用第2阶段保留的预测因子来构建静态和动态风险的正则化LR模型。这些模型是用scikit-learn的LogisticRegression类实现的。静态LR子模型接收了减少的基线变量集并生成了一个概率得分R0,而动态LR子模型使用选定的行为指标生成了一个动态得分Rdyn。
模型超参数通过在训练集上进行五折交叉验证结合网格搜索来调整。网格覆盖了以下设置:
- **惩罚(penalty)**:{1, 12, elasticnet};
- **正则化强度(C)**:对数尺度上的值,从10^-4到10^4;
- **求解器(solver)**:liblinear, lbfgs, saga;
- **最大迭代次数(max_iter)**:100和200。
对于每组超参数组合,我们计算了五折交叉验证下的接收者操作特征曲线下面积(AUC)和准确率,并选择了平均性能最高的配置。然后使用这些最优超参数在完整训练集上重新拟合最终的正则化LR模型,以获得R0和Rdyn的稳定估计。这些基于LR的风险得分既作为可解释的独立模型使用,也作为下面描述的层次融合策略的一对输入。
**2.5.3 机器学习模型构建**
第2.5.2节(第3阶段)描述了静态和动态风险的正则化LR子模型的构建。在这里,我们描述了在相同预测任务上训练的五个额外分类器,以作为比较器,并探索非线性算法是否能够更好地利用预测因子之间的潜在非线性和交互作用:多层感知器(MLP)、随机森林(RF)、k最近邻(KNN)、支持向量机(SVM)和极端梯度提升(XGBoost)。与仅使用第1和第2阶段中识别为独立显著的变量以保持简洁性和可解释性的正则化LR子模型不同,这五个分类器接收了所有18个静态或所有39个动态特征作为输入,允许它们在没有先验变量限制的情况下发现复杂模式。所有模型仅在训练数据上拟合;超参数通过交叉验证进行调整,最终配置在独立测试集上进行评估。
**2.5.3.1 第1步:静态模型**
对于静态特征集,每个算法分别进行了优化:
- **MLP**:隐藏层和神经元数量、激活函数(ReLU或tanh)、L2惩罚和学习率。
- **随机森林**:树的数量(n_estimators)、最大深度(max_depth)、每次分割的候选特征数量(max_features)、最小分割样本数(min_samples_split)和每个叶子的最小样本数(min_samples_leaf)。
- **KNN**:邻居数量k ∈ [3,20]、加权方案(均匀或基于距离的)和距离度量(欧几里得或曼哈顿)。
- **SVM**:RBF核和软边界参数C以及核宽度γ。
- **XGBoost**:树深度、学习率、提升轮数、行和列子采样率、最小子节点权重以及正则化参数(gamma, reg_alpha, reg_lambda)。
对于每个分类器,选择了在训练集上五折交叉验证AUC最高的超参数设置,之后在完整训练数据上重新拟合模型,并在测试集上评估其性能。
**2.5.3.2 第2步:动态模型**
由于单变量关联可能会被预测因子之间的相关性扭曲,接下来我们构建了多变量LR模型来识别与自我伤害/自杀风险独立相关的变量。使用statsmodels中的Logit函数,我们在训练数据上为静态和动态特征集分别拟合了多变量模型。因变量是二元自我伤害/自杀标签(1 = 高风险,0 = 非高风险),协变量是在单变量筛选中达到显著性的那些特征。回归系数被指数化以得到带有95% CI的调整后的OR;P< 0.05的变量被认为是统计上显著的。这一步产生了一组独立贡献于结果的静态和动态预测因子的紧凑子集。
**2.5.2.3 第3阶段:正则化LR子模型和层次得分**
在第1和第2阶段识别出独立显著的预测因子后,我们现在从统计关联分析过渡到预测建模。下面描述的正则化LR子模型,加上第2.5.3节中介绍的额外机器学习分类器,共同构成了层次框架的预测部分。然后使用第2阶段保留的预测因子来构建静态和动态风险的正则化LR模型。这些模型是用scikit-learn的LogisticRegression类实现的。静态LR子模型接收了减少的基线变量集并生成了一个概率得分R0,而动态LR子模型使用选定的行为指标生成了一个动态得分Rdyn。
模型超参数通过在训练集上进行五折交叉验证结合网格搜索来调整。网格覆盖了以下设置:
- **惩罚(penalty)**:{1, 12, elasticnet};
- **正则化强度(C)**:对数尺度上的值,从10^-4到10^4;
- **求解器(solver)**:liblinear, lbfgs, saga;
- **最大迭代次数(max_iter)**:100和200。
对于每组超参数组合,我们计算了五折交叉验证下的平均接收者操作特征曲线下面积(AUC)和准确率,并选择了性能最高的配置。然后使用这些最优超参数在完整训练集上重新拟合最终的正则化LR模型,以获得R0和Rdyn的稳定估计。这些基于LR的风险得分既作为可解释的独立模型使用,也作为下面描述的层次融合策略的一对输入。
**2.5.3.3 机器学习模型构建**
第2.5.2节(第3阶段)描述了静态和动态风险的正则化LR子模型的构建。在这里,我们描述了在相同预测任务上训练的五个额外分类器,以作为比较器,并探索非线性算法是否能够更好地利用潜在的非线性和预测因子之间的交互作用:多层感知器(MLP)、随机森林(RF)、k最近邻(KNN)、支持向量机(SVM)和极端梯度提升(XGBoost)。与仅使用第1和第2阶段中识别为独立显著的变量以保持简洁性和可解释性的正则化LR子模型不同,这五个分类器接收了所有18个静态或所有39个动态特征作为输入,允许它们在没有先验变量限制的情况下发现复杂模式。所有模型仅在训练数据上拟合;超参数通过交叉验证进行调整,最终配置在独立测试集上进行评估。
**2.5.3.1 第1步:静态模型**
对于静态特征集,每个算法分别进行了优化:
- **MLP**:隐藏层和神经元数量、激活函数(ReLU或tanh)、L2惩罚和学习率。
- **随机森林**:树的数量(n_estimators)、最大深度(max_depth)、每次分割的候选特征数量(max_features)、最小分割样本数(min_samples_split)和每个叶子的最小样本数(min_samples_leaf)。
- **KNN**:邻居数量k ∈ [3,20]、加权方案(均匀或基于距离的)和距离度量(欧几里得或曼哈顿)。
- **SVM**:RBF核和软边界参数C以及核宽度γ。
- **XGBoost**:树深度、学习率、提升轮数、行和列子采样率、最小子节点权重以及正则化参数(gamma, reg_alpha, reg_lambda)。
对于每个分类器,选择了在训练集上五折交叉验证AUC最高的超参数设置,之后在完整训练数据上重新拟合模型,并在测试集上评估其性能。
**2.5.3.2 第2步:动态模型**
相同的训练和调整框架应用于动态特征矩阵,现在使用39个行为向量作为输入。这五种算法(MLP、RF、KNN、SVM、XGBoost)分别在训练子集上通过交叉验证进行优化,然后在保留的测试子集上进行评估。因为这些动态预测因子描述了情绪、行为和精神症状的周变化,因此能够建模复杂非线性结构的方法在这种设置下预计会特别有信息量。
**2.5.3.3 第3步:静态和动态模型的融合**
为了得出层次预测因子,我们在概率层结合了一个选定的静态模型和一个选定的动态模型。设R0表示来自选定静态分类器的概率输出(例如,正则化LR),Rdyn表示来自选定动态分类器的相应概率(例如,SVM)。然后我们形成了一个融合得分:
$$R^* = \alpha R_0 + (1-\alpha) R_dyn,$$
其中$\alpha \in [0,1]$控制基线信息与动态信息的相对贡献。在训练集上,α从0到1以0.05的增量进行扫描;对于每个值,我们使用五折交叉验证计算平均AUC,并选择最大化该值的值。得到的R*提供了自我伤害/自杀风险的综合估计,在测试数据上对R*应用默认阈值0.5,得到每个患者的最终二元预测$\hat{y}$(如果$R^* \geq 0.5$,则$\hat{y} = 1$;否则$\hat{y} = 0$)。选择这个传统阈值是为了在所有比较的模型(静态、动态、层次和扁平)中提供统一的决策规则,从而确保敏感性和特异性的差异反映了模型的真实特性,而不是阈值选择。因为主要判别指标(AUC)与阈值无关,所以选择0.5不会影响模型性能的总体评估。
**2.5.3.4 第4步:扁平组合特征基线**
为了提供一个可以直接评估层次融合策略的基准,我们还在连接的静态和动态特征集上训练了所有六个分类器。对于每个患者,将18个入院时变量和39个聚合的护理观察得分合并成一个57维的输入向量;然后在训练数据上使用上述相同的交叉验证程序拟合和调整模型,并在独立测试集上进行评估。这种扁平架构代表了将所有可用预测因子汇集到一个模型中的传统方法,而不区分它们的时间来源,其性能与第3.3节中的层次模型进行了比较。
**2.6 评估指标**
我们使用敏感性(召回率)、特异性、阳性预测值(PPV)、阴性预测值(NPV)、总体准确率和接收者操作特征曲线下面积(AUC)来评估模型性能,并检查了混淆矩阵。在自我伤害/自杀筛查的背景下,敏感性具有特别的临床重要性,因为假阴性对应于错过的干预机会。AUC被用作总体判别的主要衡量标准,因为它与阈值无关,并且对结果患病率的变化相对稳健。PPV和NPV被报告出来,以便在自我伤害事件发生率较低的情况下对预测性能进行情境化。为了量化不确定性,通过对测试集进行自助重采样(1,000次迭代)获得了所有指标的95%置信区间。为了评估校准,我们为关键模型绘制了校准曲线,并使用校准截距和斜率总结了弱校准。我们还报告了Brier分数作为总体性能指标,以及基于分组的预期校准误差(ECE)作为校准不准确的总结。
**3 结果**
在本节中,我们展示了关于预测精神分裂症住院患者自我伤害和自杀行为的主要实证发现。我们首先总结了用于筛选候选风险因素的静态和动态特征的单变量分析。接下来,我们报告了在每个特征集中分离独立预测因子的多变量逻辑回归模型。最后,我们详细介绍了基线正则化逻辑回归模型和层次机器学习模型在保留的测试样本上的预测性能。
**3.1 单变量分析**
**3.1.1 静态特征的单因素分析**
基线静态协变量是从入院时的电子医疗记录中获得的。我们比较了在住院期间至少有一次自我伤害/自杀行为的患者(高风险组)和没有这种行为的患者(非高风险组)之间的这些变量。连续变量(如年龄和疾病持续时间)使用Mann–Whitney U检验进行分析,而分类和有序变量根据情况使用卡方检验或Fisher精确检验进行检验。
如表2所示,两组之间的几个入院特征存在显著差异(P< 0.05)。高风险患者平均年龄比非高风险患者年轻(P< 0.001),并且高风险组中有自我伤害或自杀企图的历史明显更常见(P< 0.001)。入院时的绝望或抑郁情绪在高风险患者中也更为普遍(P< 0.001)。教育水平与自伤/自杀行为有关,在高风险组中,完成高中或以上教育的比例高于非高风险组(P = 0.010)。此外,性别(P = 0.030)、存在迫害妄想(P = 0.036)和人格特质(P = 0.042)也显示出显著的组间差异,这表明这些因素可能增加了住院期间自伤或自杀行为的可能性。表2列出了相关特征及其检验方法和显著性结果。
**表2 特征 类型 检验方法 显著性**
- 自杀史 二进制变量 卡方检验 <0.001
- 年龄 连续变量 曼-惠特尼U检验 <0.001
- 绝望/抑郁 二进制变量 卡方检验 <0.001
- 教育水平 有序分类变量 曼-惠特尼U检验 0.010
- 性别 二进制变量 卡方检验 0.030
- 迫害妄想 二进制变量 卡方检验 0.036
- 人格 二进制变量 卡方检验 0.042
**3.1.2 自伤/自杀组与非自伤/自杀组之间的静态特征单因素分析**
**3.2 动态特征的单因素分析**
动态行为指标来自每周护士评定的精神病患者护理观察量表得分。39个项目每个都按0到3的顺序进行编码。使用曼-惠特尼U检验或卡方检验来检查这些动态变量之间的组间差异。在39个动态项目中,有13个项目在高风险组和非高风险组之间存在统计学上的显著差异(P< 0.05),详见表3。高风险患者在负面自我评价和自我报告的抑郁方面得分明显更高(两者均P< 0.001),表明他们对自己有更负面的看法,并且主观抑郁症状更严重。睡眠障碍(失眠)在高风险组中也更为突出(P = 0.001)。高风险患者表现出更多的情绪表达行为,如哭泣和自言自语(P = 0.003)。此外,在人际交往和社会功能方面也存在差异:高风险患者与他人交流较少(P = 0.003),对他人态度较消极(P = 0.003),对周围环境的兴趣较低(P = 0.026)。日常生活能力和自我照顾能力也受到影响,个人事务管理、与工作人员的合作、参与工作治疗、洗脚和外表整洁等方面的得分显著较差(所有P ≤ 0.023)。这些发现表明,情绪、社会参与度和日常活动的动态变化与自伤/自杀行为的发生密切相关。
**表3 动态特征 类型 检验方法 显著性**
- 负面自我评价 有序变量 曼-惠特尼U检验 <0.001
- 自我报告的抑郁 有序变量 曼-惠特尼U检验 <0.001
- 失眠 有序变量 曼-惠特尼U检验 0.001
- 与他人交流 有序变量 曼-惠特尼U检验 0.003
- 哭泣 有序变量 曼-惠特尼U检验 0.003
- 自言自语 有序变量 曼-惠特尼U检验 0.003
- 对他人的态度 有序变量 曼-惠特尼U检验 0.003
- 个人事务管理 有序变量 曼-惠特尼U检验 0.004
- 与工作人员的合作 有序变量 曼-惠特尼U检验 0.005
- 参与工作治疗 有序变量 曼-惠特尼U检验 0.006
- 洗脚 有序变量 曼-惠特尼U检验 0.012
- 外表整洁 有序变量 曼-惠特尼U检验 0.023
- 对周围环境的兴趣 有序变量 曼-惠特尼U检验 0.026
**3.2.3 多变量逻辑回归分析**
基于单变量筛选,我们接下来进行了多变量逻辑回归分析,以识别独立预测自伤/自杀行为的静态和动态变量。
**3.2.1 静态特征的多变量分析**
在单变量比较中P< 0.05的静态变量被纳入多变量逻辑回归模型。如表4所示,调整后仍有四个基线特征与自伤/自杀行为独立相关。
**表4 特征 系数 OR 95% CI**
- 自杀史 1.464 <0.001 4.323 2.508–7.451
- 年龄 0.064 <0.001 0.938 0.912–0.964
- 绝望/抑郁 1.128 <0.001 3.090 1.817–5.256
- 教育水平 0.305 0.026 1.357 1.038–1.774
**3.2.2 动态特征的多变量分析**
在单变量分析中显示出显著关联的动态行为变量被纳入另一个多变量逻辑回归模型。如表5所示,六个动态指标与自伤/自杀行为独立相关。
**表5 特征 系数 p值 OR 95% CI**
- 负面自我评价 0.834 <0.001 2.303 1.679–3.159
- 自我报告的抑郁 0.595 <0.001 1.812 1.316–2.495
- 失眠 0.570 <0.001 1.768 1.290–2.422
- 自言自语 0.550 0.001 1.733 1.244–2.413
- 哭泣 0.530 0.001 1.700 1.228–2.352
- 与他人交流 0.352 0.022 1.422 1.052–1.921
**3.3 分层机器学习模型的性能**
**3.3.1 静态基线模型的性能**
为了评估仅基于基线临床历史的预测价值,我们在18个静态特征上训练了六种不同的分类器:正则化逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、多层感知器(MLP)、k最近邻(KNN)和XGBoost。所有模型都在训练集上通过交叉验证进行了调整,然后在独立测试集上进行了评估。详细的性能指标总结在表6中。
**表6 模型类型 AUC 敏感性 特异性 阳性预测值 阴性预测值 准确率**
- MLP 0.6107 (0.5107–0.7064) 0.3750 (0.2285–0.5122) 0.7579 (0.6701–0.8427) 0.4390 (0.2857–0.5897) 0.7059 (0.6224–0.7900) 0.6294 (0.5524–0.7063)
- RF 0.7406 (0.6547–0.8126) 0.2708 (0.1525–0.4043) 0.8947 (0.8269–0.9490) 0.5652 (0.3571–0.7647) 0.7083 (0.6303–0.7881) 0.6853 (0.6084–0.7552)
- KNN 0.6432 (0.5461–0.7303) 0.2500 (0.1333–0.3847) 0.8211 (0.7327–0.8901) 0.4138 (0.2400–0.6000) 0.6842 (0.6000–0.7647) 0.6294 (0.5524–0.7063)
- SVM 0.7259 (0.6413–0.8050) 0.3542 (0.2195–0.5000) 0.8737 (0.8064–0.9348) 0.5862 (0.4074–0.7601) 0.7281 (0.6460–0.8070) 0.6993 (0.6224–0.7692)
- LR 0.7564 (0.6764–0.8315) 0.5833 (0.4399–0.7144) 0.8316 (0.7548–0.9043) 0.6364 (0.4883–0.7826) 0.7980 (0.7188–0.8723) 0.7483 (0.6783–0.8182)
- XGBoost 0.7156 (0.6186–0.8003) 0.5000 (0.3617–0.6364) 0.8105 (0.7253–0.8830) 0.5714 (0.4091–0.7143) 0.7624 (0.6789–0.8367)
**3.3.2 动态行为模型的性能**
在表5中,六个动态指标与自伤/自杀行为独立相关。
**3.3.3 分层机器学习模型的性能**
我们首先评估了基于39个动态护理观察特征训练的模型的性能。再次比较了六种算法(LR、SVM、RF、MLP、KNN、XGBoost),性能指标见表7。
**表7 模型类型 AUC 敏感性 特异性 阳性预测值 阴性预测值 准确率**
- MLP 0.8241 (0.7463–0.8896) 0.7083 (0.5652–0.8334) 0.7895 (0.7052–0.8646) 0.6296 (0.5094–0.7500) 0.8427 (0.7558–0.9126) 0.6622 (0.6923–0.8252)
- RF 0.7961 (0.7145–0.8605) 0.1875 (0.0789–0.3036) 0.9474 (0.8947–0.9891) 0.6429 (0.3636–0.8892) 0.6977 (0.6183–0.7752) 0.6923 (0.6154–0.7692)
- KNN 0.6717 (0.5854–0.7573) 0.2917 (0.1750–0.4222) 0.9158 (0.8523–0.9688) 0.6364 (0.4286–0.8236) 0.7190 (0.6393–0.8000) 0.7063 (0.6364–0.7832)
- SVM 0.8531 (0.7892–0.9029) 0.4167 (0.2800–0.5610) 0.9474 (0.8979–0.9891) 0.8000 (0.6427–0.9474) 0.7627 (0.6789–0.8390)
- LR 0.8281 (0.7620–0.8856) 0.5833 (0.4444–0.7273) 0.8105 (0.7292–0.8817) 0.6087 (0.4651–0.7381) 0.7938 (0.7083–0.8710)
- XGBoost 0.8112 (0.7293–0.8799) 0.5417 (0.4081–0.6905) 0.8947 (0.8295–0.9529) 0.7222 (0.5833–0.8684) 0.7944 (0.7168–0.8738)
**3.3.4 集成分层模型的性能**
最后,我们使用第2.5.1节描述的分层融合策略整合了静态和动态风险估计。我们选择了性能最佳的静态分类器(基于AUC的正则化LR)和动态分类器(SVM),并通过概率级加权融合将它们结合起来形成最终的分层模型(LR + SVM)。最佳融合权重α通过在训练集上进行网格搜索确定,并在独立测试集上评估了融合模型。如表8所示,LR + SVM分层模型在测试集上的AUC为0.9048(95% CI: 0.8518–0.9472),敏感性为0.8542(0.7419–0.9435),特异性为0.7789(0.6956–0.8603),PPV为0.6613(0.5507–0.7797),NPV为0.9136(0.8441–0.9697),准确率为0.8042(0.7413–0.8671)。该模型的混淆矩阵如图1所示。在测试集患者中,41名高风险个体被正确识别(真阳性),而7名高风险患者被错误分类为低风险(假阴性)。74名非高风险患者被正确分类(真阴性),21名非高风险患者被错误标记为高风险(假阳性)。
**3.3.5 与扁平组合特征的比较**
为了评估分层融合策略是否优于简单合并所有预测因子,我们在57维特征向量(18个静态特征+39个动态特征)上训练了相同的六种分类器。所有扁平模型的性能指标总结在表9中。
**表9 模型类型 AUC 敏感性 特异性 阳性预测值 阴性预测值 准确率**
- MLP 0.8680 (0.8027–0.9226) 0.7083 (0.5714–0.8334) 0.8632 (0.7912–0.9271) 0.7234 (0.5952–0.8432) 0.8542 (0.7812–0.9238) 0.8112 (0.7413–0.8741)
- RF 0.8629 (0.7917–0.8605) 0.1875 (0.0789–0.3036) 0.9474 (0.8947–0.9891) 0.6429 (0.3636–0.8892) 0.6977 (0.6183–0.7752)
- KNN 0.7787 (0.5854–0.7573) 0.2917 (0.1750–0.4222) 0.9158 (0.8523–0.9688) 0.6364 (0.4286–0.8236) 0.7190 (0.6393–0.8000) 0.7063 (0.6364–0.7832)
- SVM 0.8531 (0.7892–0.9029) 0.4167 (0.2800–0.5610) 0.9474 (0.8979–0.9891) 0.8000 (0.6427–0.9474) 0.7627 (0.6789–0.8390)
- LR 0.8281 (0.7620–0.8856) 0.5833 (0.4444–0.7273) 0.8105 (0.7292–0.8817) 0.6087 (0.4651–0.7381) 0.7938 (0.7083–0.8710)
- XGBoost 0.8112 (0.7293–0.8799) 0.5417 (0.4081–0.6905) 0.8947 (0.8295–0.9529) 0.7222 (0.5833–0.8684) 0.7944 (0.7168–0.8738)
**3.3.5 校准分析**
为了补充上述的区分度指标,我们检查了四个关键模型的校准情况。表10总结了每个模型的布里尔分数(Brier score)、预期校准误差(ECE)、校准斜率和校准截距,图2显示了相应的校准曲线。这种模式可归因于线性概率融合公式(R∗ = αR0 + (1 − α)Rdyn),该公式压缩了输出范围,防止预测概率达到极端值。重要的是,这种校准误差会影响预测概率的绝对准确性,但不会降低模型按风险对患者进行排序的能力,这体现在其优越的AUC(0.9048)和敏感性(0.8542)上。
4. 讨论
本研究探讨了是否一个将入院时临床历史与重复护理观察结果相结合的层次化机器学习框架能够预测精神分裂症住院患者的短期自伤和自杀行为。最终模型结合了静态特征的规则化逻辑回归和动态特征的SVM,在独立测试集上取得了出色的区分能力(AUC = 0.9048),同时具有高敏感性和阴性预测值(NPV)。实际上,这意味着该模型可以可靠地区分在当前住院期间是否进行自伤/自杀行为的患者。结合我们之前使用相同数据基础设施对暴力行为的研究(20),这些发现表明,单一的层次化架构可以适应不同的不良结果,并揭示出自伤与其他类型伤害的不同风险模式。
关于静态入院特征,四个变量——之前的自伤或自杀企图、年轻年龄、绝望/抑郁以及较高的教育水平——仍然与住院期间的自伤/自杀行为独立相关。先前自伤的主导作用与大量文献一致,这些文献表明,过去的自伤尝试是精神分裂症和其他严重精神疾病中后续自杀行为的最强预测因素(1, 2, 6)。年龄的负相关也与元分析结果一致,即年轻患者和疾病早期阶段的自杀风险最高(1, 4)。基线绝望感和抑郁情绪长期以来被认为是精神疾病中自杀倾向的关键驱动因素,我们的结果进一步证实了这一点:入院时被评定为绝望或抑郁的患者在住院期间自伤/自杀行为的可能性大约是其他患者的三倍(5, 21, 37)。较高的教育水平看似矛盾,但与先前的研究一致,这些研究表明更好的教育和较高的发病前功能可能与更强的洞察力和更高的期望值相关,当严重疾病出现时,这些因素可能会加剧失落感和绝望感(2, 38)。综合这些发现,可以勾勒出一个合理的基线风险特征:有自伤史、明显的绝望或抑郁情绪以及相对较高教育水平的年轻患者,在入院期间需要特别关注。
来自每周护理观察的动态指标提供了额外的、近期的预警信号。六个项目——负面自我评价、自我报告的抑郁、失眠、自言自语以及与他人交流减少——在调整后仍然具有独立的预测能力。这些行为与自我污名、感知的无价值感、主观抑郁痛苦、睡眠障碍和社会退缩等已建立的心理学概念密切相关,所有这些因素都与精神分裂症中自杀念头和行为的出现和持续有关(1, 37)。失眠与自伤/自杀行为之间的联系尤其值得注意,因为纵向研究和元分析表明,睡眠问题是自杀念头和行为的强大且可改变的风险因素(39, 40)。通过简单的每周护士评分来检测这种风险,突显了在常规病房实践中系统监测睡眠的潜在价值。同样,自言自语和哭泣可能反映了情绪调节障碍和内在的注意力集中问题,而与他人交流减少则反映了人际关系的疏离;这两种模式都与强调归属感受挫、感知到的负担感和困顿感的人际和认知模型一致。重要的是,这些动态迹象在日常临床护理中可以直接观察到,并且可以通过有针对性的干预措施进行改善,例如睡眠管理、增强的情感支持以及结构化的社交或职业活动。我们对护士评分的行为指标的重视得到了最近一项针对131名精神分裂症住院患者的横断面研究的支持,在该研究中,护士观察量表成为机器学习模型中预测自杀风险的重要指标(19)。这些相互印证的发现表明,结构化的护理观察为识别这一人群中的自伤和自杀风险提供了具有临床意义的信息。
静态和动态信息的层次化整合相对于仅依赖任一来源的模型取得了明显的性能提升,并保持了与简单模型相当的总体区分能力(AUC),同时实现了显著更高的敏感性。最佳融合权重更加强调动态成分,同时仍然受益于静态基线,这表明长期脆弱性和短期行为波动提供了互补的信息,两者都是准确进行短期预测所必需的。这种模式与最近的综述和元分析结果一致,这些研究表明,结合丰富临床历史和纵向或行为数据的模型在自杀风险预测方面优于简单的精算工具和未经辅助的临床判断(12, 13, 41)。我们的发现进一步扩展了这些趋势,表明即使在单一的精神病病房内,静态电子病历数据(EMR)和结构化的每周护理观察也可以结合成一个准确且可解释的风险模型。动态更新的这一优势也在更大的精神病患者队列中得到了验证。Kyron等人(42)使用了超过17,500名精神病患者每日自我报告的心理健康数据,发现仅依赖静态入院信息的模型随时间推移性能下降,而结合动态更新的患者数据的模型保持了预测稳定性并降低了假阳性率。同样,Sheu等人(43)基于超过170万患者的电子健康记录开发了连续时间动态风险预测模型,发现将风险建模为随时间变化的轨迹而非固定分数显著提高了区分能力。尽管我们的每周护理观察频率低于每日自我报告或连续的电子病历更新,但原理是相同的:将长期脆弱性与短期状态变化分开并重新组合,可以更真实地反映住院期间风险的变化。从互补的角度来看,Simon等人(44)证明,即使仅使用结构化的电子病历数据也能实现有意义的自杀死亡风险分层(AUC = 0.823);我们的结果表明,将基于病房的动态观察添加到这些基线信息中可以进一步提高区分性能。重要的是,与将所有57个特征合并为单一输入向量的简单模型相比,层次化模型并未牺牲整体的区分能力:最佳简单模型(SVM,AUC = 0.9022)的表现与层次化模型(LRstatic+SVMdynamic,AUC = 0.9048)相当。然而,在默认决策阈值下,层次化模型实现了显著更高的敏感性(0.8542 vs. 0.6667),这在自伤和自杀筛查中是一个关键优势,因为未被发现的高风险患者可能会面临生命威胁。这种性能模式与假设一致,即明确区分静态脆弱性和动态行为变化有助于校准决策边界,从而优先检测高风险个体。值得注意的是,层次化模型在默认的0.5阈值下实现了有利的敏感性-特异性平衡,而无需进行任何阈值优化,这表明其结构优势是内在的,而非阈值选择的结果。在临床应用中,操作阈值应根据预期用途进行调整:较低的阈值将进一步提高广泛病房级别的筛查敏感性,而较高的阈值可能适用于将密集资源分配给最高风险患者的情况。这种阈值校准以及成本效益分析应在前瞻性实施研究中进行探讨。
与我们之前关于暴力行为的层次化模型相比,进一步说明了相同的分析框架如何揭示不同的风险路径。在暴力模型中,静态风险主要由先前的暴力行为、躁狂症状和高风险命令幻觉主导,而动态预测因素包括愤怒表达、违反规则和与工作人员合作不佳(20)。这些特征体现了外化攻击性、抑制力减弱和敌意。相比之下,当前的自伤/自杀模型则表现为内化和自我导向的现象:之前的自伤、绝望/抑郁、负面自我评价、哭泣、自言自语、失眠和社会退缩。这种差异支持了这样的观点:尽管精神分裂症中的暴力和自伤行为有一些非特定的风险因素(如年轻年龄或物质使用),但它们主要由不同的心理病理机制驱动——外化路径与内化路径——这与关于精神疾病中暴力和自杀行为的比较研究一致(45–48)。层次化框架在应用于不同终点时自然能够恢复这些不同的模式,增加了两种模型的结构有效性。
这对临床实践有几项启示。入院信息可用于将患者分层为不同的风险等级,并识别出那些需要早期加强监测或预防措施的患者,特别是有自伤史和明显绝望或抑郁的患者。动态护理观察提供了一种持续风险监控的实用机制:负面自我评价的上升、自我报告的抑郁、哭泣、失眠或自言自语以及逐渐加剧的社会退缩,应促使审查安全计划、治疗参与和环境支持。层次化模型的高阴性预测值表明,被分类为低风险的患者在住院期间不太可能自伤,这可能帮助临床医生在不影响安全性的情况下优先分配资源。更广泛地说,我们的结果增加了越来越多的证据,表明机器学习工具可以通过提供一致的数据驱动风险估计和支持更结构化、透明的风险制定来补充而非替代临床判断(49)。
这项工作也存在局限性。该研究是回顾性的,并在辽宁省的一家精神病医院进行;因此,其普遍性对于具有不同患者群体、文档实践或治疗结构的其他环境尚不确定。特别是,不同机构之间的护理观察协议、人员配比、病房环境和患者人口统计特征的差异可能会影响自伤/自杀行为的普遍性和各个预测因素的区分能力。文化和区域因素——如对精神疾病的态度、住院的阈值和文档惯例——可能会进一步影响我们发现的可转移性。在考虑常规实施之前,需要在具有不同临床环境的多中心队列中进行独立的外部验证(50)。这个问题并非我们研究所独有。最近的一项针对167个自伤和自杀预测模型的系统评价发现,只有8%的模型经过了外部验证,而且当模型在新人群中测试时,其区分能力通常会下降(51)。此外,Spittal等人(18)的元分析得出结论,机器学习自杀预测的总体证据质量参差不齐,许多研究显示出高偏差风险或预测准确性不明确,无法始终超越传统的风险量表。这些观察结果强调了谨慎解释我们结果的必要性:尽管层次化模型显示出有希望的内部性能,但它应被视为针对特定住院环境的初步证据,而不是一个可以直接使用的临床工具。前瞻性验证还将允许评估模型随时间和不同治疗方案的校准情况,而这在回顾性设计中是无法实现的。我们的校准分析显示,虽然简单的SVM产生了校准良好的概率估计(斜率 = 1.03),但层次化模型表现出显著的校准误差(斜率 = 2.69),预测概率在较高范围内系统性地低估了实际事件发生率。这是线性概率平均的固有属性,它压缩了输出范围。因此,不应将层次化模型的预测概率视为绝对风险估计;相反,该模型最适合作为排名和筛查工具使用。如果需要用于临床决策的绝对概率估计,可以应用事后重新校准方法,如等渗回归或Platt缩放,理想情况下应在独立的外部数据上进行。在获得此类验证之前,该模型仍处于内部验证阶段,不应被视为适合常规临床应用的工具。在其当前形式下,它最好被视为一个概念验证决策支持工具,用于补充而非替代临床判断和既定的风险评估程序。
与我们之前关于暴力行为的层次化模型相比,进一步说明了相同的分析框架如何揭示不同的风险路径。在暴力模型中,静态风险主要由先前的暴力行为、躁狂症状和高风险命令幻觉主导,而动态预测因素包括愤怒表达、违反规则和与工作人员合作不佳(20)。这些特征体现了外化攻击性、抑制力减弱和敌意。相比之下,当前的自伤/自杀模型则表现为内化和自我导向的现象:之前的自伤、绝望/抑郁、负面自我评价、哭泣、自言自语、失眠和社会退缩。这种差异支持了这样的观点:尽管精神分裂症中的暴力和自伤行为有一些非特定的风险因素(如年轻年龄或物质使用),但它们主要由不同的心理病理机制驱动——外化路径与内化路径——这与关于精神疾病中暴力和自杀行为的比较研究一致(45–48)。层次化框架在应用于不同终点时自然能够恢复这些不同的模式,增加了两种模型的结构有效性。
这对临床实践有几项启示。入院信息可用于将患者分层为不同的风险等级,并识别出那些需要早期加强监测或预防措施的患者,特别是有自伤史和明显绝望或抑郁的患者。动态护理观察提供了一种实用的持续风险监控机制:负面自我评价的上升、自我报告的抑郁、哭泣、失眠或自言自语以及逐渐加剧的社会退缩,应促使审查安全计划、治疗参与和环境支持。层次化模型的高阴性预测值表明,被分类为低风险的患者在住院期间不太可能自伤,这可能帮助临床医生在不影响安全性的情况下优先分配资源。更广泛地说,我们的结果增加了越来越多的证据,表明机器学习工具可以通过提供一致的数据驱动风险估计和支持更结构化、透明的风险制定来补充而非替代临床判断(49)。
这项工作也有局限性。该研究是回顾性的,并在辽宁省的一家精神病医院进行;因此,其普遍性对于具有不同患者群体、文档实践或治疗结构的其他环境尚不确定。特别是,不同机构之间的护理观察协议、人员配比、病房环境和患者人口统计特征的差异可能会影响自伤/自杀行为的普遍性和各个预测因素的区分能力。文化和区域因素——如对精神疾病的态度、住院的阈值和文档惯例——可能会进一步影响我们发现的可转移性。在考虑常规实施之前,需要在多中心队列中进行独立的外部验证(50)。这种担忧并非我们研究所独有。最近的一项针对167个自伤和自杀预测模型的系统评价发现,只有8%的模型经过了外部验证,而且当模型在新人群中测试时,其区分能力通常会下降(51)。此外,Spittal等人(18)的元分析得出结论,机器学习自杀预测的总体证据质量参差不齐,许多研究显示出高偏差风险或预测准确性不明确,无法始终超越传统的风险量表。这些观察结果强调了谨慎解释我们结果的必要性:尽管层次化模型显示出有希望的内部性能,但它应被视为针对特定住院环境的初步证据,而不是一个可以直接使用的临床工具。前瞻性验证还将允许评估模型随时间和不同治疗方案的校准情况,而这在回顾性设计中是无法实现的。我们的校准分析显示,虽然简单的SVM产生了校准良好的概率估计(斜率 = 1.03),但层次化模型表现出显著的校准误差(斜率 = 2.69),预测概率在较高范围内系统性地低估了实际事件发生率。这是线性概率平均的固有属性,它压缩了输出范围。因此,不应将层次化模型的预测概率视为绝对风险估计;相反,该模型最适合作为排名和筛查工具使用。如果需要用于临床决策的绝对概率估计,可以应用事后重新校准方法,如等渗回归或Platt缩放,理想情况下应在独立的外部数据上进行。在获得此类验证之前,该模型仍处于内部验证阶段,不应被视为适合常规临床应用的工具。在其当前形式下,它最好被视为一个概念验证决策支持工具,用于补充而非替代临床判断和既定的风险评估程序。尽管我们的样本和事件数量与许多关于精神分裂症自杀行为的研究相当,但对于复杂的机器学习模型来说,这些数量仍然有限,因此不能排除一些过拟合现象——特别是对于更灵活的算法。结果定义将非致命的自伤和自杀企图合并在一起,不论方法或推断意图如何。尽管这种包容性的方法与世界卫生组织(WHO)和英国国家医疗服务体系(NICE)的框架一致(27, 28),并且从实际角度来看,由于从回顾性病历中可靠地判断自杀意图的难度较大(1, 6),这种方法也是合理的,但它对结果的解释具有一定的影响。所识别的风险因素反映了两种自伤行为形式的平均效应,而针对某一亚型的特定预测因素可能被稀释了;此外,高风险分类应理解为表明广义上的自伤风险增加,而不仅仅是自杀行为的风险。未来使用前瞻性设计并进行结构化意图评估的研究可以探讨针对自杀性和非自杀性自伤的独立模型是否能产生更明确、更具可操作性的风险特征。此外,由于缺乏足够的入院前护理观察数据,那些在住院第一周内首次发生自伤或自杀行为的患者被排除在研究之外。这种排除可能会引入选择偏差,因为这些患者可能代表一个急性高风险亚群,其风险特征与住院后期自伤患者的风险特征不同。因此,该模型的性能估计可能不适用于这一早期发病的群体。然而,任何依赖于入院后收集的纵向行为数据的预测框架都存在这种限制。在实际应用中,分层架构提供了一种自然的缓解措施:对于新入院且缺乏动态观察数据的患者,静态子模型(R0)可以根据临床病史提供初步的风险估计,一旦积累了足够的护理数据,就可以激活完整的分层评分。动态观察数据每周仅收集一次,并汇总为每个患者的单一摘要向量,这可能会遗漏周内的波动和长期时间趋势;然而,我们队列中相对较短且同质的观察窗口(4.46 ± 1.87周)表明,简单的平均处理能够保留主要的严重性信息。在未来的研究中,更频繁的采样、基于趋势的特征分析或序列建模架构可能能够更精确地捕捉即将发生的危机(52, 53)。最后,与大多数预测建模研究一样,我们的分析仅是相关性的,不应被解释为建立了因果关系;在将这些变量视为潜在干预目标时,以因果推断为导向的方法可能会有所帮助(54)。展望未来,有几个扩展方向值得探索。方法上,可以开发多任务模型,在单一框架内同时预测自伤/自杀行为和人际暴力,从而明确共享风险路径和特定结果的风险路径。结合额外的数据类型——如通过自然语言处理处理的自由文本临床记录、神经认知测量、神经影像学或生物标志物——可能会进一步提高模型的性能,并有助于阐明潜在机制(13, 15)。临床方面,需要开展前瞻性实施研究,以评估分层风险评分如何影响临床医生的行为、患者结果和病房工作流程,并确定将这些工具整合到常规护理中的最佳实践和保障措施。总之,我们的发现提供了初步的单中心证据,表明结合静态临床病史和动态行为观察的分层机器学习模型能够准确预测住院精神分裂症患者的短期自伤和自杀行为,并且还具有提供可临床解释的风险估计的优势,这些估计能够区分持久的脆弱性和急性行为预警信号。结合我们之前关于暴力预测的研究,这表明数据驱动的分层风险评估框架可以根据不同的不良结果进行定制,并提供关于自伤行为和其他导向风险的细致、可临床解释的见解。