为此,研究人员开展了一项回顾性队列研究,相关论文发表在《Scientific Reports》。研究者从重症监护医学信息集市第四版(Medical Information Mart for Intensive Care IV, MIMIC-IV)数据库中,筛选出8,128名诊断为脓毒症并使用PICC的ICU患者数据。他们将患者随机分为训练集(70%,5,690人)和验证集(30%,2,438人),利用训练集数据,研究人员构建了一个基于极端梯度提升(eXtreme Gradient Boosting, XGBoost)算法的机器学习预测模型。XGBoost是一种高效、灵活的树模型集成算法,擅长处理结构化数据,并能有效捕捉变量间的复杂关系。
研究构建的XGBoost模型展现出优异的预测能力。在训练集中,其受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)为0.761(95%置信区间[CI] 0.734–0.787);在独立的验证集中,AUC达到0.766(95% CI 0.731–0.801),这表明模型具有良好的区分度,且未出现过拟合。校准曲线显示,模型的预测概率与观察到的实际血栓发生率高度吻合,表明其校准度良好。决策曲线分析结果更为引人注目:在20%的风险阈值下,使用该模型指导临床决策所能带来的净获益高达0.31,显著优于对所有患者都进行干预(treat-all)或对所有患者都不干预(treat-none)的策略,证实了其强大的临床实用价值。
关键预测因子的识别
通过SHAP分析,研究者成功揭示了驱动模型预测的关键风险因素,即对PICC相关性血栓发生贡献最大的前十位预测因子。这些因子按照重要性从高到低依次是:白细胞计数、血小板计数、心肌梗死病史、血红蛋白水平、肌酐水平、PICC留置时间、患者年龄、轻度肝病史、凝血酶原时间(Prothrombin Time, PT)以及不伴有慢性并发症的糖尿病。这一分析不仅让模型的决策过程变得透明可解释,更重要的是,它从数据驱动的角度,量化并确认了这些临床指标与血栓风险之间的强关联,为临床医生提供了明确的风险评估焦点。例如,较高的白细胞计数(提示感染或炎症状态)和较长的PICC留置时间被识别为最重要的正向风险因素,而较高的血小板计数则显示出保护性作用(较高的SHAP值对应较低的血栓风险),这与已知的血小板在血栓形成中的复杂角色相吻合。