利用混合LSTM-GAT模型进行早期败血症预测:一项基于PhysioNet 2019数据集的研究

时间:2026年5月19日
来源:BMJ Health & Care Informatics

编辑推荐:

摘要 目标:败血症是对感染的一种潜在致命的全身性反应,早期临床干预对于降低死亡率至关重要。本研究提出了一种混合深度学习模型,该模型结合了临床数据中的时间和结构信息,以改进早期败血症的预测。 方法:我们使用了2019年PhysioNet/Computing in Card

广告
   X   

摘要
目标:败血症是对感染的一种潜在致命的全身性反应,早期临床干预对于降低死亡率至关重要。本研究提出了一种混合深度学习模型,该模型结合了临床数据中的时间和结构信息,以改进早期败血症的预测。

方法:我们使用了2019年PhysioNet/Computing in Cardiology挑战赛的数据来预测最多12小时内的败血症发作。我们开发了一种混合模型,整合了长短期记忆(LSTM)网络和图注意力网络(GAT),以捕捉时间动态和变量间关系。性能与三个基线模型进行了比较。为了确保模型的稳健性,所有模型都使用了五种不同的随机种子进行了五次重复的训练-测试分割。

结果:数据集包括40,336名成人ICU患者。在所有患者中,有2,932人在住院期间发展为败血症。每个患者的数据包括40个临床变量的每小时数据,包括生命体征、实验室结果和人口统计信息。LSTM-GAT模型的接收者操作特征曲线下面积(AUROC)为0.853±0.005,F1分数为0.627±0.006,特异性为0.872±0.007,优于基线模型。尽管是在固定的时间窗口上训练的,该模型在无需重新训练的情况下能够很好地泛化到多个预测时段。

讨论:通过整合时间和结构表示,所提出的方法相比基线模型提高了预测性能。这种能力可能有助于更早地识别高风险患者,并在重症监护环境中增强及时的临床决策。

结论:所提出的模型展示了结合序列方法和基于图的方法的优势。它为败血症检测提供了实时临床决策支持的有希望的工具。

关于该主题的已有知识:
败血症是一个重大的全球健康危机。早期诊断和干预对于降低死亡率至关重要。机器学习算法被广泛用于败血症预测,但通常依赖于手工制作的特征(例如,6小时内的平均心率)。

本研究的新贡献:
本文介绍了一种混合深度学习模型(长短期记忆(LSTM)网络和图注意力网络(GAT),该模型可以从原始时间序列数据中学习。该模型在预测败血症发作前12小时的表现优于标准的LSTM和GAT基线模型。所提出的方法无需重新训练即可泛化到不同的预测时段。

这项研究可能对研究、实践或政策产生的影响:
所提出的LSTM-GAT模型为ICU环境中的实时败血症检测提供了一种临床可部署的方法,且无需GPU即可高效运行。其无需重新训练即可泛化到多个预测时段的能力可能减少模型维护负担,并支持在临床环境中的实际应用。

引言:
败血症是对感染的严重炎症反应,如果不能及早发现,可能导致器官衰竭和死亡。它在全球范围内导致五分之一的死亡,并每年影响多达5000万人,特别是在低收入和中等收入国家发病率和死亡率最高。1–3 它给医疗系统带来了巨大的负担,通常需要入住重症监护室(ICU)和昂贵的干预措施。世界卫生组织估计,每1000名住院患者中有15人会发展成败血症,1 占用了高达2.65%的医疗预算。4 败血症患者还需要更长的ICU住院时间和更高的再住院率。5 由于症状模糊和患者个体差异,早期检测具有挑战性。6 及时的诊断和干预至关重要,因为每延迟一小时的治疗都会增加死亡风险。7 8 现有的败血症评分系统,如序贯器官功能衰竭评估(SOFA)和全身炎症反应综合征(SIRS),由于其依赖于静态阈值,预测性能有限。6 9 与传统的静态评分系统不同,机器学习(ML)模型能够连续分析患者数据,支持动态风险评估和更早地检测临床恶化。10 11 对基于ML的方法的兴趣日益增加,这得到了像PhysioNet/Computing in Cardiology 2019挑战赛这样的基准测试的强调。12 值得注意的是,表现最好的模型使用了梯度提升决策树,特别是XGBoost。13–15 尽管性能强劲,但由于其对大量特征工程和高计算复杂性的依赖,限制了其在现实世界中的应用。Bloch等人16 使用四个生命体征的变化应用了支持向量机(SVM),实现了0.88的接收者操作特征曲线下面积(AUROC)。Nemati等人17 提出了人工智能败血症专家算法,结合了标准电子病历数据和高频生理信号,达到了0.83–0.85的曲线下面积(AUC)。最近,Liu等人18 在两个特征集上评估了八个ML模型,发现添加人口统计和病史可以提高性能,其中梯度提升获得了最高的AUC。

深度学习模型无需手动特征工程即可捕捉时间依赖性和非线性模式。将卷积神经网络(CNN)与长短期记忆(LSTM)架构结合的混合模型在电子健康记录数据上的AUROC超过了0.85。19 20 循环神经网络(RNN)及其变体(如门控循环单元(GRUs)被广泛用于败血症预测的时间动态建模,通常达到约0.80的AUROC;然而,如低特异性、次优的F1分数和有限的外部验证等限制仍然存在。21–23 最近的工作探索了基于高斯过程的插补与RNN,24 以及基于变压器的模型,其内部验证的AUROC为0.846,外部验证为0.807。25 值得注意的是,COMPOSER是一种经过临床评估的模型,显示出降低的死亡率和改善的败血症治疗依从性。26 27 基于图的模型可以捕捉临床变量之间的结构关系。Lee等人28 将临床变量表示为节点,边由统计相关性定义。虽然有效捕捉了特征依赖性,但该模型缺乏时间建模。相反,CNN-LSTM模型可以处理时间趋势,但常常忽略了特征间的相互作用。为了克服这些限制,我们开发了一种结合LSTM网络和图注意力网络(GAT)的混合深度学习方法。该模型为ICU临床医生提供早期败血症警告,共同捕捉临床时间序列数据中的时间动态和变量间依赖性。与早期主要依赖手工工程特征或关注数据结构单一方面的方法相比,我们的方法实现了更全面的表示学习。我们开发并评估了几个模型变体,以评估每个组件的贡献。

方法:
我们使用了2019年PhysioNet/Computing in Cardiology挑战赛的数据集,12 包括来自两家美国医院的40,336名成年患者的ICU数据。每位患者每小时记录40个临床特征,包括8个生命体征、6个人口统计变量和26个实验室测试。由于测试不规律,缺失值表示为‘NaN’。表1显示了按败血症状态分层的ICU患者特征。

表1:
• 按败血症状态分层的ICU患者的基线特征

根据Sepsis-3指南,败血症的发作特征是疑似感染与SOFA评分增加两分的同时发生。数据集提供了每小时的败血症标签。对于发展为败血症的患者,还提供了败血症发生的时间,并且标签从记录发作前6小时开始设置为一。在原始的PhysioNet挑战赛中,12 在发作前12小时内的预测会获得奖励,其中发作前6小时的奖励最高。我们将阳性标签窗口扩展到了败血症发作前12小时。因此,结果不能直接与使用默认标记策略的研究进行比较。

数据预处理:
我们应用了几步预处理步骤以确保所有参与者数据的一致性。在PhysioNet数据集中的40个临床变量中,12 由于极端高的缺失率(大约85%–95%)和ICU轨迹内的测量频率有限,排除了13个特征(32.5%)。然而,一些临床相关的变量尽管缺失率较高,但由于在初步分析中显示出重要性而被保留。引入了休克指数作为一个派生特征,计算方法为心率与收缩压的比率。这导致了28个用于模型训练的特征,包括7个生命体征、14个实验室变量、6个人口统计和ICU相关变量以及1个派生特征(在线补充表1)。

缺失值通过两步程序处理。首先,在每个患者的时间序列内进行前向填充插补。剩余的缺失值使用特定于特征的插补处理;分类变量在没有早期观察值时使用众数插补,数值变量使用链式方程的多变量插补。所有数值特征都使用训练集统计数据进行标准化,以防止数据泄露。

序列数据使用滑动窗口方法准备。对于败血症患者,使用固定长度(10小时)的重叠窗口来捕捉发作前的动态。对于没有败血症的患者,使用非重叠窗口以避免冗余。序列长度小于窗口大小的在开头进行了零填充,以保留最新的观察结果。这种方法为所有患者提供了固定长度的输入窗口,并且比重复最后一个观察结果的表现更好。

每个时间窗口都被标记,指示是否在接下来的12小时内发生了败血症。除了标签外,还存储了败血症发生的确切时间(如果存在)和窗口内的最后一次观察时间,用于效用函数计算。通过随机下采样多数(非败血症)类别来解决类别不平衡问题。本研究没有应用合成过采样(例如,合成少数过采样技术(SMOTE)),因为时间序列窗口之间的合成插值可能会扭曲生理轨迹。

模型架构:
我们开发了几种深度学习模型,使用10小时的临床窗口来预测败血症发作,每小时包含28个特征。实现的模型包括LSTM、GAT、混合LSTM-GAT模型和称为temporal GAT的时间变体。基于GAT的模型结合了一个静态的全连接图结构,其中每个节点代表一个特征,边在所有节点对之间建立。

LSTM网络:
LSTM网络29 是一种设计用于捕捉序列数据中长距离依赖性的RNN。在本研究中,LSTM作为基线,用于模拟10小时窗口内临床特征的时间演变,以早期预测败血症。

GAT架构:
为了建模特征间的依赖性,使用了GAT架构30,其中每个节点代表一个临床特征。模型接收每个特征在10小时窗口内的时间轨迹,并在完全连接的特征图上应用注意力权重,允许聚合相关信息并学习结构关系。

LSTM-GAT(时空混合):
LSTM-GAT模型首先应用LSTM层来模拟10小时窗口内临床特征的时间变化。然后将这些表示输入到完全连接的图中,其中GAT捕捉特征间的空间依赖性,从而学习时间动态和特征间关系。

temporal GAT:
与之前的架构不同,temporal GAT将时间步骤作为图节点,并使用有向边来学习临床变量随时间的变化,评估注意力机制是否改善了时间建模。

模型训练和评估:
数据集被随机分为训练(70%)、验证(15%)和测试(15%)集。模型使用Adam优化器(批量大小=32,学习率=0.001)训练了最多100个周期,并在验证损失上提前停止。超参数使用验证集进行优化。通过随机下采样多数类别来解决类别不平衡问题。每个实验使用五种不同的随机种子重复进行,报告了平均指标。

模型性能使用AUROC、精确度-召回曲线下面积(AUPRC)和PhysioNet效用分数进行评估,12 该分数奖励早期检测,并将最高分数分配给在败血症发作前6小时做出的预测。我们还报告了F1分数、精确度和特异性。阈值使用Youden’s J统计量选择,以最大化敏感性和特异性的总和。

进一步的分析:
为了更好地理解模型的机制和时间性能,我们进行了额外的分析:(1)仅使用生命体征评估模型性能,(2)应用SHAPGradient解释特征贡献,(3)在败血症发作前12小时内的多个时间间隔内分析预测结果,(4)进行敏感性-特异性阈值分析,以检查临床相关的操作点。

仅使用生命体征的模型评估:
数据集包括8个生命体征变量、26个实验室特征和6个人口统计变量。然而,实验室特征有很高的缺失率,而人口统计变量基本上是静态的。为了评估生命体征的预测能力,我们仅使用这些特征重新训练了表现最好的模型(LSTM-GAT),作为与全特征模型的比较基线。

特征归因:
使用SHAPGradient分析特征贡献,SHAPGradient是专门为神经网络设计的基于梯度的SHapley Additive explanations(SHAP)的扩展。与传统的SHAP方法相比,SHAPGradient可以利用反向传播高效估计特征重要性。

预测结果的时间分析:
为了研究模型预测性能的时间动态,我们分析了其在败血症发作前12小时内的输出,将其分为六个独立的2小时间隔(即,发作前10–12小时、8–10小时、…、0–2小时)。对于每个时间间隔,计算了真正例率和假负例率,以评估模型的敏感性随时间的变化,并确定模型检测败血症最有效的间隔。进行了敏感性-特异性阈值分析,针对四个实验室变量(pH值、肌酐、白细胞(WBC)和血小板),在生理相关范围内使用了200个候选值。使用单变量阈值生成预测结果,并在每个点计算了敏感性和特异性。根据Youden指数定义了最佳临界值,并在预定义的90%敏感性操作点检查了性能,以代表高敏感性的早期预警场景。

为了评估不同机构之间的稳健性,使用了Medical Information Mart for Intensive Care III(MIMIC-III)进行了外部验证。由于实验室测量数据大量缺失,分析仅限于生命体征。变量与PhysioNet的特征定义对齐,并使用训练集参数进行了标准化。败血症的发作是根据Sepsis-3标准重建的,结合了疑似感染(抗生素加血液培养)和部分SOFA评分增加≥2分。验证阈值基于PhysioNet数据集确定。

本研究使用的数据包括公开可用的PhysioNet/Computing in Cardiology Challenge 2019数据集(https://physionet.org/content/challenge-2019/1.0.0/)和MIMIC-III临床数据集(V.1.4;https://physionet.org/content/mimiciii/1.4/)。用于分析和模型开发的代码可在以下链接获取:https://github.com/bk-ai-health/sepsis-lstm-gat。

本研究使用了公开可用的去标识化数据集,包括PhysioNet 2019挑战数据集和MIMIC-III临床数据库(V.1.4)。访问MIMIC-III需要完成PhysioNet的认证流程并签署数据使用协议。有关数据集的问题,请联系PhysioNet,邮箱为physionet@mit.edu。

本节展示了LSTM、特征级GAT、端到端LSTM-GAT混合模型以及时间GAT模型在早期败血症预测中的性能。所有模型都使用不同的随机种子进行了五次训练和评估,平均指标及其标准差在表2中报告。图1显示了ROC曲线和精确度-召回率曲线以供比较。除了标准指标外,我们还报告了误报率(1-特异性),以反映临床应用中的潜在警报负担。

表2 • 评估模型在早期败血症检测中的预测性能比较,以不同随机种子进行的五次运行的平均值(标准差)表示

图1 请求权限
(a) ROC曲线和(b) 精确度-召回率曲线,比较了LSTM、GAT、LSTM-GAT和时间GAT模型在早期败血症检测中的预测性能。LSTM-GAT模型在区分度和精确度-召回率平衡方面优于基线架构。GAT代表图注意力网络;LSTM代表长短期记忆;ROC代表接收者操作特征。

使用SHAP进行特征重要性分析,揭示了早期败血症检测的前10个预测因子。如图2所示,Unit2、Unit1和温度是最有影响力的特征,强调了生理变量和临床背景(例如ICU停留时间)在预测败血症中的重要性。鉴于前10个特征中有6个是生命体征,我们仅使用这些输入评估了模型的预测能力,排除了实验室和人口统计变量。目的是评估生命体征的预测价值,并为评估其他特征类型的贡献提供一个参考点。正如预期的那样,与完整特征集相比,性能有所下降(在线补充表2),AUROC从0.853降至0.730,效用分数从0.705降至0.584。

为了检查模型在败血症发作临近时的时间性能,我们分析了发作前12小时内连续6个2小时间隔的预测结果。如图1和图3所示,随着间隔接近败血症发作,敏感性并没有一致提高。有趣的是,最高的敏感性出现在发作前6到8小时之间,而在最后的0-2小时间隔内略有下降。这种模式表明,性能并不一定在接近临床发作时有所改善。

图3 请求权限
LSTM-GAT模型在败血症发作前12小时内连续2小时间隔的敏感性(真正例率),展示了模型在不同时间距离临床发作时检测高风险患者的能力。

进行了敏感性和特异性分析,以得出选定实验室变量的临床可解释阈值(在线补充表3)。基于Youden指数优化,pH值显示出最高的特异性,而肌酐在评估的实验室阈值中实现了最高的敏感性(0.707)。血小板计数显示出中等的权衡,WBC表现出更平衡的性能特征。由于操作点不稳定,乳酸被排除在阈值优化之外,但仍包含在预测模型中。在预定义的90%敏感性操作点,特异性降至0.439(假正例率为56%),这与预期的权衡一致。

由于MIMIC-III中实验室测量数据大量缺失,外部验证仅限于生命体征。与内部仅生命体征的AUROC 0.730相比,外部AUROC为0.70,AUPRC为0.25。召回率相对较高(0.73),而精确度显著下降,反映了MIMIC-III和PhysioNet队列之间败血症患病率、标签定义和测量实践的差异。这些发现与临床人群和测量设置的变化一致。

我们提出了深度学习模型用于早期败血症预测,重点关注时间动态和特征之间的相互依赖性。LSTM-GAT混合模型取得了最佳的整体性能(AUROC、F1分数、召回率、特异性、效用分数和AUPRC)。其较高的AUPRC反映了尽管存在类别不平衡,但仍具有很强的精确度-召回率平衡。与这些发现一致,混合LSTM-GAT模型还比基线模型具有更低的误报率,表明通过潜在地减少不必要的警报同时保持强敏感性,提高了临床可用性。此外,每10小时窗口的平均推理时间为2.29±0.29毫秒(中位数2.12毫秒),在CPU(Intel Core i9-11900,无需GPU)上,相当于每秒处理超过400个窗口,表明适用于实时临床决策支持。

标准LSTM模型表现出有竞争力的性能,特别是在精确度和AUPRC方面表现优异,但召回率和特异性较低,表明有更多的病例被遗漏和误报。这表明结合基于图的注意力机制具有额外的好处。GAT和时间GAT模型的表现较差。时间GAT的表现不佳表明,将时间建模为图节点不如捕捉特征级时间模式有效。

为了评估我们的发现,我们将结果与之前针对多个数据集和架构的早期败血症预测研究进行了比较;更广泛的多指标比较总结在在线补充表4中。报告的AUROC包括Kim等人的0.83、Scherpf等人的0.79和Wickramaratne等人的0.83。我们的LSTM-GAT模型表现最佳,AUROC为0.853,召回率(0.706)和特异性(0.872)都很高。Kim等人报告的敏感性更高,但他们的模型使用的是来自单一医院的数据,且缺失率较低,而我们的模型是从两个医院训练的,缺失率较高,使得任务更具挑战性。

特征重要性分析显示,前10个重要预测因子中有6个是生命体征(温度(Temp)、氧饱和度(O2Sat)、舒张压(DBP)、心率(HR)和收缩压(SBP),以及两个实验室值(血细胞比容(Hct)和血红蛋白(Hgb)和三个上下文变量:Unit1(内科ICU)、Unit2(外科ICU)和ICU停留时间(ICULOS)。这些ICU特定的变量可能反映了基线风险差异,ICULOS表明ICU停留时间较长时败血症风险更高。

这些发现与先前的研究一致,其中SBP、HR、Temp和呼吸频率(RR)经常被确定为重要因素。Hct和血尿素氮也一致出现。临床上,这些特征与败血症病理生理学的主要领域相符。温度失调与已建立的败血症标准一致,而HR、SBP和DBP的变化可能反映了血流动力学不稳定。O2Sat降低表明早期呼吸功能障碍,Hct和Hgb的变化可能反映了败血症患者的血液稀释或生理压力。相比之下,像肌酐、WBC和乳酸这样的变量在这里没有排在前列,可能是由于数据集或预处理的差异。我们的模型优先考虑了较少报告的特征,如pH值和O2Sat,表明模型能够捕捉到微妙的生理模式。

为了检查生命体征的贡献,我们比较了LSTM-GAT模型使用所有特征与仅使用生命体征时的性能。仅使用生命体征的模型显示出AUROC、F1分数和效用分数的显著下降,表明虽然生命体征是关键组成部分,但实验室和人口统计特征显著增强了预测能力。Rangan等人发现,像(HR+Temp)和(RR+Temp)这样的组合在生命体征对中产生了最高的AUROC。Liu等人也表明,将人口统计和临床历史特征添加到生命体征中可以提高整体模型性能。

与早期重新训练模型并重新定义不同时间间隔的败血症标签的研究不同,我们训练了一个单一模型来预测12小时后的败血症,并回顾性地评估了其在不同时间窗口的性能。Kim等人报告称,随着预测时间的接近,AUROC值有所提高,Scherpf等人观察到从12小时时的0.76增加到3小时时的0.81。然而,我们的方法反映了更现实的临床场景,即模型必须在不重新训练的情况下进行时间泛化。

我们模型中最高的真正例率出现在发作前6-8小时,随后略有下降。这表明模型在败血症轨迹的早期捕捉到了最强的预测信号。此外,败血症预测中重要的特征可能随时间窗口而变化。模型的超参数没有针对每个2小时间隔进行验证,可能针对特定窗口进行了最佳调整,但对其他窗口的调整较少。

在独立的MIMIC-III队列上进行的外部验证显示了较低的AUROC,这可能反映了数据集之间败血症患病率、文档实践和数据采集协议的差异。这些发现强调了在临床应用前进行站点特定阈值校准的重要性。

本研究回顾性地使用了来自两家医院的数据和MIMIC-III临床数据库,这可能限制了其立即推广到其他医疗系统的能力。败血症标签是根据Sepsis-3标准定义的,可能会受到文档时间和测量频率的影响。尽管在多个预测时间范围内性能稳定,但超参数并未针对每个间隔进行单独优化。此外,从SHAPGradient获得的特征归属反映了模型行为而非因果关系,应谨慎解释。

在这项研究中,我们提出了一个混合LSTM-GAT模型用于早期败血症预测,并在其上评估了其在PhysioNet 2019挑战数据集上的性能。结果显示出强大且平衡的预测性能,优于基线架构。我们的模型在不同时间间隔内也表现出稳健的性能,无需重新训练,这支持了其在实际临床应用中的潜力。特征重要性分析揭示了具有临床意义的变量,包括生命体征、实验室值和ICU相关的人口统计因素。这些发现强调了在临床数据中整合时间和序列模式对于准确早期检测败血症的重要性。

生物通微信公众号
微信
新浪微博


生物通 版权所有