在全球范围内,糖尿病(DM)已成为一种极为普遍的慢性疾病,如同一个 “健康杀手”,悄无声息地威胁着无数人的生命健康。据统计,如今全球约有 5.37 亿人受其困扰,预计到 2045 年,这个数字将飙升至 7 亿 ,给全球医疗系统带来巨大挑战。在中国,2021 年糖尿病患者人数达 1.41 亿,且未来还会持续增加,更令人担忧的是,超过半数患者未被及时诊断。
高血糖危象(HC)作为糖尿病最严重的急性代谢并发症之一,包含糖尿病酮症酸中毒(DKA)、高渗高血糖状态(HHS)以及二者合并(DKA-HHS)的情况。它发病突然、进展迅速,患者往往需要紧急就医,多数会前往急诊科。然而,即便在医疗技术不断进步的今天,高血糖危象的死亡率依旧居高不下,部分发展中地区甚至超过 10%,中国的死亡率也达到了 10.8% 。以往研究大多样本量小、单中心,难以准确预测死亡率,这使得临床医生在面对这类患者时,就像在黑暗中摸索,缺乏有效的决策依据。
为了打破这一困境,重庆医科大学的研究人员开展了一项极具意义的研究。他们旨在运用多种机器学习(ML)算法,识别高血糖危象患者死亡的风险因素,构建预测模型,并进行验证,为临床医生提供有力的决策支持。该研究成果发表在《BMC Endocrine Disorders》杂志上。
研究人员采用了多中心回顾性研究方法,从重庆 6 家大型综合性医院收集数据。数据来源于重庆医科大学数据科学研究院维护的智能医疗数据(IMD)平台,涵盖了 2015 年 1 月 1 日至 2020 年 12 月 30 日期间因高血糖危象入院的患者信息。
在构建模型前,研究人员对数据进行了细致处理。他们纳入 26 个变量,包括患者人口统计学信息、合并症、并发症、治疗措施和实验室检查结果等,并通过多次插补处理缺失数据。随后,运用 R 软件中的 caret 包进行数据清洗、划分训练集(80%)和验证集(20%),采用随机欠采样和合成少数过采样技术(SMOTE)处理样本不均衡问题,还利用基于 SHapley Additive exPlanations 值的递归特征消除(RFE)算法筛选关键特征。
研究中,研究人员选用 8 种 ML 算法,包括逻辑回归(LR)、支持向量机(SVM)、随机森林(RF)、递归划分与回归树(RPART)等。通过 10 折交叉验证优化模型超参数,计算各模型的灵敏度、特异性、阳性和阴性预测值、曲线下面积(AUC)和准确率等指标,以评估模型性能。
研究结果令人瞩目。共有 1668 名患者符合研究标准,住院死亡率为 7.3%。在训练集中,确定了 8 个模型的重要预测因子,如机械通气、年龄、查尔森合并症指数(CCI)等。在验证集中,除 MARS 模型外,多数模型预测能力良好,AUC 值超过 0.9,F1 得分在 0.632 - 0.81 之间。RPART、RF 和 SVM 模型表现最佳,AUC 值分别为 0.970、0.968 和 0.968 ,F1 得分分别为 0.652、0.762 和 0.762。
从变量重要性来看,机械通气在多个模型中都是重要预测因子,反映出患者病情的严重程度。首次 24 小时胰岛素用量和输液量也被多个模型认定为重要因素,这与高血糖危象的主要治疗方式相关,在一定程度上体现了病情的严重程度。
研究还发现,低血糖、低钾血症、住院时间等因素也与患者预后密切相关。这提示临床医生在治疗过程中,不仅要关注高血糖危象本身的治疗,还需密切监测这些指标,及时调整治疗方案。
在讨论部分,研究人员指出,本研究首次运用多种机器学习方法,基于大数据平台,利用常规收集的数据构建模型,为高血糖危象患者的预后预测提供了新的思路。虽然研究存在一定局限性,如数据存在选择偏倚、未进行外部验证、模型在临床实践中应用存在困难等,但依旧为后续研究奠定了基础。
总体而言,该研究构建的预测模型有助于临床医生早期识别高血糖危象患者的死亡风险,及时采取干预措施,合理分配医疗资源,从而改善患者的预后。机器学习在高血糖危象患者死亡率预测方面展现出了巨大潜力,有望成为传统预测方法的有力补充,为临床决策提供更精准、更科学的依据。