综述:心力衰竭患者死亡风险、再入院及表型预测的机器学习算法系统综述:关键数据来源、输入变量与结局指标之探索

时间:2026年6月5日
来源:BMC Medical Informatics and Decision Making

编辑推荐:

背景 心力衰竭(Heart Failure,HF)不仅是一种患病率高且死亡率高的疾病,而且会给医疗系统带来高昂的费用。通过在医疗数据上训练人工智能(Artificial Intelligence,AI)模型,可以预测可能导致再入院或死亡的健康状态变化。此类预测

广告
   X   

背景
心力衰竭(Heart Failure,HF)不仅是一种患病率高且死亡率高的疾病,而且会给医疗系统带来高昂的费用。通过在医疗数据上训练人工智能(Artificial Intelligence,AI)模型,可以预测可能导致再入院或死亡的健康状态变化。此类预测有助于改善患者护理,并对病情恶化做出主动应对。
方法
研究人员针对既往确诊的心力衰竭患者的再入院和死亡风险预测以及表型聚类问题,开展了人工智能研究的系统文献综述,这些研究应用了多种机器学习(Machine Learning,ML)算法。研究人员按结局变量即死亡、再入院和表型对研究进行了综合与分类。2024年9月,在Scopus数据库中检索了2014年至2024年间发表的相关研究。纳入标准包括:聚焦心力衰竭、使用来自电子健康记录(Electronic Health Records,EHR)或医院记录的数据、采用机器学习技术、分析再入院或死亡及表型变量、纳入年龄不低于18岁的患者。
结果
研究共识别出109项相关文献。在死亡分组(68项研究)中,年龄、血清肌酐水平、血清钠水平、收缩压和血尿素氮是预测死亡被提及频率最高的相关变量。对于再入院(32项研究),合并症、血尿素氮和年龄被确定为最相关的变量。其余研究涉及表型分型或其他结局。在所有分组中,随机森林(Random Forest,RF)是被推荐最多的机器学习预测算法,其次是支持向量机(Support Vector Machines,SVM)。研究人员从本综述中总结出九项关键启示,以指导未来人工智能研究的开展与实践。这些启示强调应提升模型的泛化能力、数据质量和可解释性,以增强人工智能应用的稳健性与有效性。
局限性
研究人员未采用正式工具对因结果缺失导致的偏倚风险进行评估,但为应对潜在报告偏倚,将缺失的性能指标记录为“无法获取”,并优先考虑报告全面的研究,以确保数据合成与解读的透明度。
结论
该综述表明,将研究按再入院、死亡和表型等结局进行分组是有益的。这使得每个分组中的相关变量得以凸显。此外,研究还明确了各结局的不同预测能力。本研究在德国联邦研究、技术与空间部(Bundesministerium für Forschung, Technologie und Raum,BMFTR)资助的KardioInterakt项目范围内开展(资助编号16SV8906)。临床试验注册号不适用。
背景
2020年,欧洲心脏网络估计,欧盟每天有5000人死于心血管疾病。心力衰竭属于心血管疾病,患者常伴有呼吸困难、疲劳和踝部肿胀等症状,表现为心脏功能异常导致心输出量不足。心力衰竭可分为纽约心脏协会(New York Heart Association,NYHA)Ⅰ级至Ⅳ级,级别越高则体力活动受限越严重,症状越显著。人工智能在心力衰竭领域的应用涉及多种数据源,包括电子病历(Electronic Patient Record,EPR)、心电图(Electrocardiogram,ECG)数据、远程监护或可穿戴设备数据,可用于诊断、分类和表型判定、健康状态预测与预后评估,还可用于推荐治疗及个性化医疗。既往文献综述显示,心力衰竭机器学习研究主要围绕基于电子健康记录的心力衰竭检出、死亡预测、再入院和分类四个结局聚类。本研究首次将死亡、再入院和表型三个结局在机器学习技术背景下进行综合分析,提出两个研究问题:RQ1为哪些变量对心力衰竭表型分型、再入院及死亡风险预测影响较大;RQ2为过去十年机器学习技术在该领域的经验教训。

方法
本研究遵循相关文献综述指南,并应用系统综述与荟萃分析优先报告的条目(Preferred Reporting Items for Systematic Reviews and Meta-Analyses,PRISMA)声明进行记录与报告。该综述已在国际前瞻性系统综述注册平台(PROSPERO)注册,注册号为CRD420251035189。文献检索于2024年9月通过Scopus数据库完成。检索式应用于标题、摘要和关键词,限定在2014年至2024年间发表的英文文献。纳入标准要求研究聚焦心力衰竭、数据来自电子健康记录或医院记录、采用机器学习技术、结局变量为表型或再入院或死亡与生存风险,且研究对象为年满18岁且已确诊心力衰竭的患者。排除标准包括仅使用统计方法而未采用人工智能模型的研究、其他疾病的研究、仅使用心电图或X射线数据的研究、文献综述、仅检查心力衰竭有无而未进行特定结局随时间预测建模的研究,以及关注特定生物标志物、亚人群(如孕妇、儿童或动物)或仅用于诊断而非预后目的的研究。为确保客观性,所有作者同时参与筛选流程。初始检索获得2255篇文献,去重后剩余2248篇进行标题与摘要筛选,其中474篇进入全文审阅,最终纳入109篇文献。

结果
109项研究纳入分析,可按结局分为死亡、再入院、表型分型及其他结局。在预测时限方面,死亡结局涵盖院内死亡、2天、7天、30天、3个月、6个月、1年、3年及6年;再入院涵盖30天、100天、3个月、6个月、1年、3年及6年。在10项表型分型研究中,7项使用无监督学习,2项使用监督学习,1项使用半监督学习。

预处理与评估关键技术:数据清洗用于处理缺失值、重复项、空值和异常值;数据转换用于将分类值转为数值、标准化分布并修正数据类型。特征缩放采用最小-最大缩放和标准化等技术。处理数据不平衡的方法包括过采样、欠采样和合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)。变量选择环节中,部分研究采用SHAP值(SHapley Additive exPlanations)或随机森林特征重要性进行变量重要性排序。模型验证方式包括交叉验证、内部验证和外部验证。评估指标涵盖Brier Score、准确率(Accuracy)和受试者工作特征曲线下面积(Area Under the Curve,AUC)等。模型可解释性技术包括SHAP和DeepSHAP。

死亡预测:68项研究被归入死亡结局(含生存分析)。常用公开数据集包括重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC-III)和存储于加州大学尔湾分校(UCI)的数据集。纳入模型的变量数量差异很大,最少为4项,最多为1222项。算法推荐方面,21项研究推荐随机森林,7项推荐XGBoost。变量重要性方面,年龄被提及30次,血清肌酐21次,血清钠16次,射血分数(Ejection Fraction,EF)13次,收缩压和血小板各12次,血尿素氮(Blood Urea Nitrogen,BUN)10次。其他提及超过5次的变量包括NT-proBNP与BNP(9次)、舒张压(8次)、性别(8次)、体重指数(Body Mass Index,BMI)(7次)和血红蛋白(6次)。支持向量机在最高报告准确率和曲线下面积方面均达到1.0,但需警惕过拟合。

再入院预测:共识别出32项研究。多数研究使用不同医院的电子健康记录,仅少数研究共享数据源。变量数为9至146个。常用建模技术包括随机森林(18项)、支持向量机(15项)、梯度提升机(Gradient Boosting Machine)(10项)、XGBoost(9项)、K近邻(K-Nearest Neighbors)(8项)和决策树(8项)。虽然逻辑回归并非专用机器学习技术,但近14项研究将其作为基准。7项研究推荐随机森林为最佳算法。准确率为0.574至0.940。变量重要性方面,合并症(9次)、血尿素氮(8次)和年龄(8次)是最相关的变量,慢性心力衰竭(Congestive Heart Failure,CHF)类型、既往住院和血红蛋白也各被6项研究识别为显著因素。就随机森林而言,血尿素氮和年龄各被3项研究确认为最重要变量。

表型与分类预测:10项研究应用了表型分型与聚类技术。分类差异包括射血分数保留型心力衰竭(Heart Failure with preserved Ejection Fraction,HFpEF)与射血分数降低型心力衰竭(Heart Failure with reduced Ejection Fraction,HFrEF)的区分、基于死亡风险(低、中、高)的表型、包含年龄、肾功能、性别、合并症及生物标志物的特定患者画像、与衰弱和生物标志物水平相关的表型、NYHA分级、基于生物标志物差异和临床表型群的分类,以及症状群分类等。聚类数量最少为2个,最多为6个。变量数从最少10个到最多349个不等。在无监督学习研究中,k均值聚类和层次聚类最为常用。脑钠肽与氨基末端脑钠肽前体(BNP与NT-proBNP)被5项研究提及为影响聚类的重要变量,年龄被提及4次,肌酐3次,心房颤动和血红蛋白各2次。

其他结局:10项研究涉及其他结局,包括心力衰竭患者的住院费用、门诊费用和药物费用预测,心力衰竭恶化事件预测,对高级治疗及心脏重症监护病房转移需求的预测,基于评分的预测与心力衰竭严重程度评估,以及慢性心力衰竭发作和心率值预测。

讨论
本综述将109项研究按死亡、再入院和表型等结局进行系统分类。针对RQ1,年龄在预测死亡和再入院中均具有重要性。死亡结局方面,肌酐、钠、血小板和射血分数被一致认为是预测死亡最相关的变量;再入院方面,合并症、慢性心力衰竭类型和既往住院是最常提及的变量。两组的共同变量为血尿素氮和血红蛋白。

针对RQ2,研究总结出九项关键启示:I1,将高预测价值变量整合到临床监测系统,实现早期干预;I2,基于现有证据优先选择并整合经验证的相关变量,以提高人工智能模型预测心力衰竭结局的稳健性与相关性;I3,表型研究不应停留于单纯分类,而应基于分类提供个性化治疗或生活质量改善的针对性建议;I4,在远程医疗及传感器应用中整合基于证据的关键变量,以提高早期检测精度并实现主动治疗策略;I5,使用外部数据集验证人工智能模型,确保其泛化能力及在不同临床环境中的可靠性;I6,将可解释性作为人工智能模型开发的标准实践,利用SHAP等可解释人工智能技术提升透明度,促进临床信任;I7,创建多样化且大型的公共数据集对提高人工智能模型的准确性和稳健性至关重要;I8,鉴于多数数据集不完整、变量缺失,需重视高质量完整数据以提升模型的可靠性;I9,标准化等成分 standardize远程监测数据收集,在反映目标心力衰竭患者人群特征的数据集上训练、验证和测试模型,以确保人工智能预测更可靠。

当前研究多为回顾性研究,使用公开数据集,如仅含13个变量和299例患者的UCI数据集。尽管模型在训练和验证中表现良好,但泛化性和适用性仍显不足。本研究局限在于仅纳入Scopus数据库的文献,未进行前向和后向搜索,研究者选择偏倚和发表偏倚不可避免,且并非所有纳入研究都完整报告了准确率、曲线下面积、相关变量或数据划分方案。特征选择方法如SHAP和最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)的差异也可能影响关键变量的识别。

结论
本综述按再入院、死亡和表型对研究进行分组,明确了每类结局中最相关的预测变量及各结局不同的预测效能。死亡结局预测的研究最多,时间跨度最大;再入院次之,而表型研究最少且多为无监督聚类。随机森林在各分组中均为最常被推荐的算法。该综述为未来心力衰竭人工智能研究提供了九项关键启示,强调了提升泛化能力、数据质量和可解释性的重要性,以推动人工智能在心力衰竭临床决策支持中的有效应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有