研究背景
重性抑郁障碍(Major Depressive Disorder, MDD)构成了巨大的全球健康负担,其主要原因之一是与自杀行为的密切关联。流行病学研究表明,MDD约占所有自杀相关死亡的50%,受影响个体的终生自杀率为2-12%,自杀未遂的终生患病率高达23.7%。这凸显了在临床实践中加强风险评估策略的迫切性。当前的自杀风险评估工具主要关注社会心理因素,虽然提供了有价值的筛查能力,但其对主观测量的依赖以及生物标志物整合的有限性导致预测性能欠佳。此外,MDD自杀行为背后复杂的神经生物学机制尚未完全阐明,这强调需要更全面的评估方法。近年来,研究已发现一些与MDD患者自杀风险相关的有前景的生物标志物。例如,Liu等人报告了在中国首发MDD门诊患者的大型队列(n=1,279)中,升高的促甲状腺激素(Thyroid-stimulating Hormone, TSH)水平与自杀企图增加存在显著相关性。神经生物学研究进一步揭示了有自杀行为的MDD患者存在代谢紊乱,包括空腹血糖(Fasting Blood Glucose, FBG)水平升高和特定脑区葡萄糖代谢降低。积累的证据表明,代谢和内分泌失调(如胰岛素抵抗、血脂异常和甲状腺功能障碍)可能是连接抑郁症和自杀行为的共同病理生理学途径。这些异常可引发慢性神经炎症和氧化应激,从而损害前额叶和边缘系统功能,影响决策控制和负面情绪处理。同时,这种生理失调常伴有自主神经系统(Autonomic Nervous System, ANS)失衡。一项荟萃分析证实,自杀倾向与心率变异性降低(ANS灵活性的关键指标)相关。在MDD患者中,这种失衡常表现为交感神经过度激活(如血压升高)和迷走神经张力降低,这与情绪失调和冲动性(自杀风险的核心特征)有关。因此,将易于获取的生物标志物(如血压、血糖、血脂谱和甲状腺指标)纳入预测模型具有坚实的神经生物学基础。然而,单个生物标志物的诊断效用受其特异性差的限制,表明需要多变量预测模型。
机器学习(Machine Learning, ML)方法通过整合复杂的多维数据为这一挑战提供了强大的解决方案。例如,Chen等人成功使用支持向量机(Support Vector Machines, SVM)基于全脑功能连接性对MDD患者进行分类(准确率=88.50%),并对自杀风险进行分层。在一项开创性研究中,Yang等人利用表观遗传和转录组数据开发了ML模型,在各种诊断区分中实现了显著的分类准确率(高达92.6%)。尽管这些进展充满希望,但实际实施中的障碍(特别是基因组分析涉及的髙成本、专业实验室要求以及在精神病学实践中缺乏常规可用性)限制了其广泛采用。
本研究通过几项创新来解决这些局限性。首先,我们开发了一个结合可解释人工智能(Explainable Artificial Intelligence, XAI)技术(即SHapley Additive exPlanations (kernel-SHAP)和Local Interpretable Model-agnostic Explanations (LIME))的可解释ML模型,以增强临床可转化性。其次,我们的分析利用了一个大型、特征明确的首发MDD患者队列,通过严格的纳入标准最大限度地减少了混杂因素。最后,我们专注于临床可及的特征和生物标志物,以确保其在现实世界精神病学临床环境中的实用性。我们的方法旨在为临床医生提供一个强大、可解释的工具,用于识别MDD高危患者,从而促进及时干预并改善患者预后。
材料与方法
研究设计与参与者
我们进行了一项回顾性队列研究,分析了2016年3月1日至2017年6月30日期间在山西医科大学第一医院精神科门诊接受治疗的1718名首发、未用药MDD患者的数据。研究方案获得了山西医科大学第一医院机构审查委员会的批准(批准号:2016-Y27),所有参与者在详细了解了研究目的和程序后提供了书面知情同意书。参与者保留随时退出研究而无任何后果的权利。研究团队在数据收集和分析过程中无法访问个人身份信息。医院的数据安全办公室在数据集发布前对所有个人信息(如姓名和病历号)进行了去标识化处理。未向参与者提供经济补偿,因为本研究涉及对去标识化临床数据的二次分析。
诊断标准与患者选择
MDD诊断基于以下纳入标准:(1)由两名独立精神科医生使用DSM-IV的结构化临床访谈(Structured Clinical Interview for DSM-IV, SCID)确认,评估者间信度使用Cohen's kappa系数(Κ=0.85)进行评估;(2)无精神药物既往暴露史;(3)汉族,年龄18-60岁(要求汉族以减少可能混淆生物标志物和临床关联的遗传和社会文化异质性);(4)愿意参与并能提供知情同意;(5)有足够的认知能力理解研究程序。排除标准如下:(1)共病精神障碍(使用SCID评估);(2)严重躯体疾病(如未控制的内分泌疾病、恶性肿瘤);(3)妊娠或哺乳状态;(4)物质滥用史(尼古丁使用除外);(5)基线临床评估不完整。
研究程序
所有符合条件的参与者都接受了全面的基线评估,包括:(1)人口统计学特征(年龄、性别和教育水平);(2)临床评估(当前发作持续时间、症状严重程度);(3)实验室检查(甲状腺功能和代谢参数);(4)心理测量评估(抑郁和焦虑严重程度量表)。详细的流程图说明了参与者招募和选择过程,包括被排除的个体数量及排除原因。
临床测量
我们采用标准化的心理测量工具评估关键临床特征。使用17项汉密尔顿抑郁评定量表(17-item Hamilton Depression Rating Scale, HAMD-17)量化抑郁症状严重程度。该广泛验证的工具评估情绪、罪恶感、自杀意念和神经植物性症状,得分越高表明抑郁越严重。使用汉密尔顿焦虑评定量表(Hamilton Anxiety Rating Scale, HAMA)评估焦虑症状。基于既定临界值,我们将患者分为以下组别:共病焦虑(HAMA ≥18)和非焦虑(HAMA <18)。使用阳性与阴性症状量表(Positive and Negative Syndrome Scale, PANSS)阳性子量表评估精神病性症状。在该子量表得分≥15的患者被归类为具有精神病性特征,与中国MDD人群的先前研究一致。使用临床总体印象-严重程度量表(Clinical Global Impression of Severity Scale, CGI-S)评估疾病严重程度。
自杀未遂的定义
我们将自杀未遂定义为至少带有一定死亡意图的故意自伤行为。在评估期间,直接询问参与者:“您是否曾故意尝试结束自己的生命?”具体而言,“是”的分类需满足以下所有标准:(1)对上述问题自我报告肯定回答;(2)在随后由训练有素的精神科医生进行的临床访谈中证实事件的有意性和结果(即自伤);(3)可获得关于方法、意图水平和所致医疗严重性的记录细节。对于肯定回答者,训练有素的临床医生进行半结构化访谈以记录尝试的特征,包括频率、采用的方法、时间模式和医疗严重性。
变量
所有评分精神科医生完成了量表管理的标准化培训,达到了优异的评估者间信度(所有量表的组内相关系数>0.85)。这些工具的中文版本在验证研究中已证明具有良好的心理测量特性。
基于先前关于心理健康的研究,我们收集了所有参与者的全面生物标志物数据,包括代谢参数(空腹血糖(Fasting Blood Glucose, FBG),通过葡萄糖氧化酶法测量,水平>6.1 mmol/L表明糖代谢异常)、甲状腺功能标志物(游离三碘甲状腺原氨酸(Free Triiodothyronine, FT3)、游离甲状腺素(Free Thyroxine, FT4)、促甲状腺激素(TSH)、抗甲状腺球蛋白抗体(Antithyroglobulin Antibody, TgAb)和甲状腺过氧化物酶抗体(Thyroid Peroxidase Antibody, TPOAb))以及血脂谱(总胆固醇(Total Cholesterol, TC)、高密度脂蛋白(High-Density Lipoprotein, HDL)、甘油三酯(Triglycerides, TG)和低密度脂蛋白(Low-Density Lipoprotein, LDL),通过酶比色法测量)。血脂异常根据既定标准定义:TC ≥5.2 mmol/L,TG ≥1.7 mmol/L,LDL-C ≥3.4 mmol/L,或HDL-C <1.0 mmol/L。甲状腺激素参考范围遵循美国标准指南:FT4(10–23 pmol/L),TgAb(0–115 IU/L),TSH(0.27–4.20 mIU/L),FT3(3.10–6.80 pmol/L),TPOAb(0–34 IU/L)。
参考先前基于人群的文献,人体测量学指标包括体重(kg)和身高(m),据此计算体重指数(Body Mass Index, BMI)为体重/身高2 (kg/m2 ),将参与者分类为体重过轻/正常(BMI <24 kg/m2 )、超重(24–28 kg/m2 )或肥胖(≥28 kg/m2 )。血压评估遵循标准化方案:休息5分钟后,使用自动电子血压计(HBP-9020;Omron,日本)测量舒张压(Diastolic Blood Pressure, DBP)和收缩压(Systolic Blood Pressure, SBP),记录值单位为mmHg。这种综合方法确保了对我们研究人群中代谢和心血管风险因素的稳健表征。
统计分析
变量选择
所有统计分析均使用R软件(版本4.3.1;R统计计算基金会)进行。参考先前文献,连续变量使用Shapiro–Wilk检验评估正态性,正态分布变量以均值±标准差表示,非正态分布变量以中位数(四分位距)表示。组间比较对正态分布连续变量使用独立样本t检验,对非正态分布连续变量使用Kruskal–Wallis检验,对分类变量酌情使用χ2 检验或Fisher精确检验。所有统计检验均使用R中的compareGroups包(版本4.7.0)进行,双尾p值<0.05被认为具有统计学显著性。
模型推导与验证
机器学习预测模型使用Python 3.9和R 4.3.1开发,遵循严格的数据预处理和特征工程协议。特征选择最初使用最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)回归结合10折交叉验证来确定最佳正则化参数(λ),从原始数据集中初步选择了37个临床相关变量。随后,我们实施了极端梯度提升(eXtreme Gradient Boosting, XGBoost)模型以进一步细化特征集。使用SHAP值,我们定量评估并排名了特征重要性,从而能够基于它们对模型性能的相对贡献逐步纳入变量。这一迭代过程持续进行,直到模型通过重复交叉验证评估达到最佳预测性能同时保持简洁性。使用方差膨胀因子(Variance Inflation Factor, VIF)评估预测变量之间的潜在共线性。在LASSO回归期间排除VIF > 5的变量以确保特征独立性。这一步最小化了多重共线性并稳定了模型性能。
我们使用Python 3.9.10和scikit-learn库(版本1.3)开发预测模型,并实施了一个包含11种不同算法的综合机器学习框架:逻辑回归(带L2正则化)、支持向量机(Support Vector Machine, SVM,带径向基函数核)、k近邻(k-Nearest Neighbors, KNN;k = 5)、决策树(最大深度=5)、CatBoost(迭代次数=1000)、随机森林(n_estimators = 100)、XGBoost(learning_rate = 0.1)、LightGBM(num_leaves = 31)、AdaBoost(n_estimators = 50)、多层感知器神经网络(hidden_layer_sizes = (100))和高斯朴素贝叶斯。为增强预测性能,我们采用了堆叠集成方法,将这些多样化的算法作为基学习器,逻辑回归作为元学习器,以最优地加权它们的预测。堆叠集成通过元学习器(逻辑回归)协同组合基学习器(如XGBoost、SVM),元学习器学习最优地加权它们的预测。这种方法减少了方差和偏差,优于可能过度拟合特定数据模式的单个模型。超参数优化通过穷举网格搜索结合分层5折交叉验证进行,使用受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC-ROC)作为模型选择的主要性能指标。我们采用分层5折交叉验证以确保稳健的性能估计,每个折次作为保留测试集。这种方法比单次训练-测试分割更能减轻过拟合并提供更可泛化的性能指标。这一严格的优化过程确保每个算法的参数都经过仔细调整,以在保持可泛化性的同时最大化预测准确性。
所有12种机器学习模型的预测性能均使用多种互补指标进行严格评估。我们使用接收者操作特征曲线(Receiver Operating Characteristic Curve, ROC)分析评估模型区分度,报告曲线下面积(Area Under Curve, AUC)及其95%置信区间,并评估精确召回曲线(Precision-Recall Curve, PR)以考虑类别不平衡。对于逻辑回归模型,使用AIC进行模型选择。对于基于树和集成模型,优先使用交叉验证的AUC和F1分数,因为它们适用于非线性和不平衡分类任务。其他性能指标包括准确率、精确率、召回率和F1分数,所有这些指标均通过分层5折交叉验证计算以确保可靠估计。经过全面评估后,我们基于所有指标上的平衡性能选择最佳模型。为增强临床可解释性,应用了可解释机器学习(Explainable AI, XAI)技术,包括内核SHAP(SHapley Additive exPlanations)和LIME算法,以提供透明、定量的见解,说明每个特征如何在全局和个体水平上影响模型预测。这种双重解释方法有助于透明理解模型的决策过程,同时保持准确预测所需的复杂性。
结果
研究队列
研究队列包括1718名诊断为MDD的患者,其中346名(20.14%)报告至少一次自杀未遂,而1372名(79.86%)无自杀行为史。组间比较总结于表中,尽管一些变量显示出统计学差异,但没有任何单一的人口统计学或常规临床标志物单独提供足够的区分能力来进行准确的自杀风险分层,这凸显了对多变量机器学习方法的需求。
模型评估
我们的模型开发采用系统的逐步变量纳入方法来优化预测性能。使用10折交叉验证的LASSO回归进行初始特征选择,从原始数据集中识别出37个潜在相关变量。然后根据它们的SHAP值将这些变量顺序纳入模型,SHAP值定量评估了每个特征对模型预测的贡献。模型性能(以AUC衡量)随着变量的纳入呈现动态变化,这些波动在性能热图中可视化显示。值得注意的是,堆叠集成模型在验证集中达到了峰值区分能力(AUC = 0.868,95% CI: 0.842–0.894)和精确率(0.849),此时纳入了基于SHAP排名的前八个最具影响力的变量。超过此点进一步纳入变量收益递减,模型性能趋于稳定,如AUC和准确率指标的趋势分析所示。这种平台效应表明,仅使用前八个变量即可保持最佳预测能力,因此选择这八个变量用于最终模型实施。最终为最终的堆叠集成模型选择了八个关键预测因子:CGI-S评分、HAMA评分、TSH、SBP、PANSS阳性子量表评分、TgAb、DBP和年龄。模型性能指标显示在表、图和图中。内部验证集中所有评估模型的综合性能指标呈现于表中。相比之下,堆叠模型的区分性能通过其在验证队列中的ROC曲线和PR曲线进一步说明。
为了增强我们的堆叠集成模型(融合了12种不同的机器学习算法)的可解释性,我们实施了两种互补的XAI技术:内核SHAP和LIME。内核SHAP通过整合博弈论中Shapley值的数学严谨性与LIME的局部近似方法,提供了理论上有依据的特征重要性估计,从而能够在群体和个体水平上进行全面的模型解释。我们的分析确定了八个与MDD患者自杀行为临床相关的预测因子,按SHAP值排名:CGI-S评分、HAMA评分、TSH、SBP、DBP、TgAb水平、PANSS阳性子量表评分和年龄。使用SHAP蜂群图和力图阐明了个体预测特征,这些图直观展示了每个特征如何影响特定的风险评估。如图所示,HAMA评分点越往右颜色越红,HAMA的SHAP值为正,表明较高的HAMA评分与自杀风险增加相关。图量化了每个影响因素对MDD患者自杀风险的影响程度。图表明,汉密尔顿焦虑评定量表(HAMA)评分、SBP和临床总体印象-严重程度量表(CGI-S)评分是重性抑郁障碍(MDD)患者自杀风险的前三个预测因子。为了临床转化,图中的LIME图提供了一个局部的、直观的解释,显示某特定MDD患者有85%的预测自杀行为风险,驱动该预测的因素包括CGI-S、HAMA评分、SBP、TSH、年龄和TgAb。
预测模型的验证
我们使用决策曲线分析(Decision Curve Analysis, DCA)验证了预测模型的临床效用,DCA通过平衡真阳性预测与假阳性结果来量化不同风险阈值下的净收益。如图所示,在3%至88%(0.03–0.88概率范围)的临床相关风险阈值范围内,该模型显示出优于“全治疗”和“全不治疗”策略的临床净收益。这一宽泛的有效阈值区间表明其具有强大的临床适用性,在中度风险阈值(15–65%)处观察到最大净收益改善达38%,而临床决策在该区域最不确定。净收益在整个风险谱范围内持续为正表明,我们的模型可以有意义地指导自杀预防策略,同时最大限度地减少不必要的干预,尤其是在关键的中间概率区域,临床医生常面临诊断不确定性。我们评估了最优模型的内部验证性能。在测试集上,该模型的灵敏度为0.4815(48.15%),特异度为0.9356(93.56%)。为了评估模型的稳健性,我们对数据集进行了随机5折交叉验证。对5折分割的进一步验证显示在不同数据子集上性能稳定,平均AUC为0.859(SD = 0.0182),如图所示。这些结果进一步证实了模型性能的可靠性。这些结果证实,该模型的预测性能转化为MDD管理风险分层中切实的临床价值。
讨论
MDD患者在初次自杀尝试后面临着反复自杀行为的高风险,然而临床医生在非急性病例的风险分层中主要依赖经验性临床评估。我们的研究通过开发一个堆叠集成机器学习模型来解决这一关键差距,该模型整合了12种通过LASSO回归和基于SHAP的特征选择优化的算法。通过利用来自首发、未用药MDD患者的全面临床和生物标志物数据,该模型显示出优于XGBoost和LightGBM等单个算法的预测准确性(AUC=0.868)。这一进展表明该模型提供了一种临床可行的工具,整合了常规可用的数据,无需专门检测即可早期识别高危患者。其可解释性进一步支持了临床医生之间的信任和采纳。并使有针对性的干预措施得以实施,以减轻自杀相关的发病率。
模型可解释性对于人工智能工具在临床中的采纳至关重要。我们的方法通过三个关键策略优先考虑透明度:(1)将输入变量限制为常规收集的临床参数(如生命体征和血清生物标志物)和经过验证的心理测量量表;(2)实施SHAP和LIME框架以量化特征贡献;(3)通过决策曲线分析验证临床效用。本研究中的堆叠模型表现出高可解释性,并为临床医生提供了模型预测生成方式的见解。这将使医护人员能够更及时、更有针对性地制定循证干预措施,从而降低重性抑郁障碍(MDD)患者的自杀发生率。虽然单个临床标志物可能显示与自杀风险的单变量关联,但孤立使用时其预测效用有限。我们的模型表明,正是这些标志物(特别是CGI-S、HAMA和SBP)在多变量框架内的整合和加权组合实现了高区分精度。通过干预MDD患者的相关风险因素以减轻自杀企图倾向,可能形成良性循环,进而降低这些患者的自杀风险。这代表了相对于先前研究(未能识别此类风险因素)的一个优势。
该模型在识别CGI-S评分、HAMA评分和SBP为主要预测因子的同时,保持了稳健的性能(净收益范围:3–88%风险阈值)。已识别的预测因子与新兴的自杀行为病理生理学模型一致。CGI-S反映了整体疾病严重程度,MDD患者的CGI评分与自杀意念和行为呈正相关,自杀未遂是MDD的一个症状群。HAMA评分的重要性支持了焦虑-抑郁-自杀范式。此外,我们先前的研究表明,伴有焦虑症状的MDD患者自杀未遂的发生率是无焦虑症状MDD患者的9.51倍。从机制上讲,通过血压异常表现的自主神经系统失调可能连接抑郁病理生理学和自杀易感性。我们的发现扩展了先前的工作,证明高血压相关参数(SBP/DBP)在传统精神病学评估之外提供了增量预测价值。值得注意的是,SHAP力图和LIME解释提供了细致的见解,说明特定的生物标志物谱(如升高的TSH和TgAb水平)如何与临床特征相互作用以调节个体风险轨迹。这些易于获取的变量有潜力前瞻性地预测MDD患者的自杀行为。一项比较分析显示,纳入生物标志物(如TSH、TgAb、SBP)将AUC从0.79(仅临床量表)提高到0.87(完整模型),代表了预测准确性上具有临床意义的增长。
收缩压和舒张压作为我们模型中关键预测因子的识别,与强调自主神经系统(ANS)失调的新兴自杀风险神经生物学模型一致。心率变异性降低,指示ANS不灵活性和特别是迷走神经张力减弱,是情绪调节和行为控制缺陷(自杀易感性的核心特征)的一个公认的跨诊断生物标志物。在MDD患者中,特定的自主神经活动模式已被经验性地与自杀意念的存在联系起来。因此,血压升高可能代表了持续交感神经过度活跃的可测量的外周表现,这可能破坏前额叶-边缘脑回路。此外,这种自主神经失衡通常是一种更广泛的生理状态的一部分,涉及免疫代谢失调。全身性炎症和代谢紊乱既可能促成也可能被ANS功能障碍加剧,形成一个正反馈循环,加剧神经炎症并损害大脑稳态,从而增加自杀风险。因此,我们的模型纳入易于获取的心血管指标,为这些潜在的、相互关联的神经生物学通路提供了一个临床可行的窗口。
本研究通过两项方法学创新推动该领域发展:(1)将血清生物标志物整合到可解释的ML框架中, bridging the biological and clinical risk dimensions;(2)开发了一种带有量化不确定性估计的连续风险预测工具。然而,本研究有几个重要的局限性值得考虑并指导未来研究。单中心回顾性设计和同质的汉族首发未用药患者样本,虽然在方法上受控,但可能限制其向其他人群、医疗环境以及复发或共病病例的普适性。此外,依赖静态、单时间点评估无法捕捉自杀风险的动态性质,并且排除诸如详细心理社会压力源或神经影像数据等变量可能限制预测范围。此外,当前模型在性能指标上表现出权衡,其灵敏度对于某些高风险的临床筛查场景可能欠佳。虽然内部验证严格,但在独立、前瞻性队列中进行外部验证对于确认真实世界的临床效用至关重要。为了解决这些限制,未来的工作应优先进行此类多中心验证,整合动态数字表型和更广泛的多模态数据,在技术上优化模型(例如通过SMOTE等高级重采样技术或成本敏感学习算法)以更好地平衡灵敏度和特异度,阐明关键预测因子背后的因果通路,并最终评估模型在临床工作流程中的实施和影响,以将预测准确性转化为切实的患者获益。
结论
本研究表明,整合临床、生物标志物和心理测量数据的堆叠集成机器学习模型在首发MDD患者中实现了优于传统方法的自杀风险预测(AUC=0.868)。关键预测因子,包括CGI-S、HAMA评分和血压变异性,与自主神经系统失调和焦虑-抑郁相互作用的神经生物学通路一致。两项创新增强了临床可转化性:可解释机器学习(SHAP/LIME)和在广泛概率阈值上经过验证的风险分层。局限性包括单中心招募和横断面设计,需要在未来整合实时数字生物标志物对不同人群进行前瞻性验证。
打赏