背景 心力衰竭(Heart Failure,HF)不仅是一种患病率高且死亡率高的疾病,而且会给医疗系统带来高昂的费用。通过在医疗数据上训练人工智能(Artificial Intelligence,AI)模型,可以预测可能导致再入院或死亡的健康状态变化。此类预测有助于改善患者护理,并对病情恶化做出主动应对。 方法 研究人员针对既往确诊的心力衰竭患者的再入院和死亡风险预测以及表型聚类问题,开展了人工智能研究的系统文献综述,这些研究应用了多种机器学习(Machine Learning,ML)算法。研究人员按结局变量即死亡、再入院和表型对研究进行了综合与分类。2024年9月,在Scopus数据库中检索了2014年至2024年间发表的相关研究。纳入标准包括:聚焦心力衰竭、使用来自电子健康记录(Electronic Health Records,EHR)或医院记录的数据、采用机器学习技术、分析再入院或死亡及表型变量、纳入年龄不低于18岁的患者。 结果 研究共识别出109项相关文献。在死亡分组(68项研究)中,年龄、血清肌酐水平、血清钠水平、收缩压和血尿素氮是预测死亡被提及频率最高的相关变量。对于再入院(32项研究),合并症、血尿素氮和年龄被确定为最相关的变量。其余研究涉及表型分型或其他结局。在所有分组中,随机森林(Random Forest,RF)是被推荐最多的机器学习预测算法,其次是支持向量机(Support Vector Machines,SVM)。研究人员从本综述中总结出九项关键启示,以指导未来人工智能研究的开展与实践。这些启示强调应提升模型的泛化能力、数据质量和可解释性,以增强人工智能应用的稳健性与有效性。 局限性 研究人员未采用正式工具对因结果缺失导致的偏倚风险进行评估,但为应对潜在报告偏倚,将缺失的性能指标记录为“无法获取”,并优先考虑报告全面的研究,以确保数据合成与解读的透明度。 结论 该综述表明,将研究按再入院、死亡和表型等结局进行分组是有益的。这使得每个分组中的相关变量得以凸显。此外,研究还明确了各结局的不同预测能力。本研究在德国联邦研究、技术与空间部(Bundesministerium für Forschung, Technologie und Raum,BMFTR)资助的KardioInterakt项目范围内开展(资助编号16SV8906)。临床试验注册号不适用。
背景 2020年,欧洲心脏网络估计,欧盟每天有5000人死于心血管疾病。心力衰竭属于心血管疾病,患者常伴有呼吸困难、疲劳和踝部肿胀等症状,表现为心脏功能异常导致心输出量不足。心力衰竭可分为纽约心脏协会(New York Heart Association,NYHA)Ⅰ级至Ⅳ级,级别越高则体力活动受限越严重,症状越显著。人工智能在心力衰竭领域的应用涉及多种数据源,包括电子病历(Electronic Patient Record,EPR)、心电图(Electrocardiogram,ECG)数据、远程监护或可穿戴设备数据,可用于诊断、分类和表型判定、健康状态预测与预后评估,还可用于推荐治疗及个性化医疗。既往文献综述显示,心力衰竭机器学习研究主要围绕基于电子健康记录的心力衰竭检出、死亡预测、再入院和分类四个结局聚类。本研究首次将死亡、再入院和表型三个结局在机器学习技术背景下进行综合分析,提出两个研究问题:RQ1为哪些变量对心力衰竭表型分型、再入院及死亡风险预测影响较大;RQ2为过去十年机器学习技术在该领域的经验教训。
方法 本研究遵循相关文献综述指南,并应用系统综述与荟萃分析优先报告的条目(Preferred Reporting Items for Systematic Reviews and Meta-Analyses,PRISMA)声明进行记录与报告。该综述已在国际前瞻性系统综述注册平台(PROSPERO)注册,注册号为CRD420251035189。文献检索于2024年9月通过Scopus数据库完成。检索式应用于标题、摘要和关键词,限定在2014年至2024年间发表的英文文献。纳入标准要求研究聚焦心力衰竭、数据来自电子健康记录或医院记录、采用机器学习技术、结局变量为表型或再入院或死亡与生存风险,且研究对象为年满18岁且已确诊心力衰竭的患者。排除标准包括仅使用统计方法而未采用人工智能模型的研究、其他疾病的研究、仅使用心电图或X射线数据的研究、文献综述、仅检查心力衰竭有无而未进行特定结局随时间预测建模的研究,以及关注特定生物标志物、亚人群(如孕妇、儿童或动物)或仅用于诊断而非预后目的的研究。为确保客观性,所有作者同时参与筛选流程。初始检索获得2255篇文献,去重后剩余2248篇进行标题与摘要筛选,其中474篇进入全文审阅,最终纳入109篇文献。
预处理与评估关键技术:数据清洗用于处理缺失值、重复项、空值和异常值;数据转换用于将分类值转为数值、标准化分布并修正数据类型。特征缩放采用最小-最大缩放和标准化等技术。处理数据不平衡的方法包括过采样、欠采样和合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)。变量选择环节中,部分研究采用SHAP值(SHapley Additive exPlanations)或随机森林特征重要性进行变量重要性排序。模型验证方式包括交叉验证、内部验证和外部验证。评估指标涵盖Brier Score、准确率(Accuracy)和受试者工作特征曲线下面积(Area Under the Curve,AUC)等。模型可解释性技术包括SHAP和DeepSHAP。
死亡预测:68项研究被归入死亡结局(含生存分析)。常用公开数据集包括重症监护医学信息数据库(Medical Information Mart for Intensive Care,MIMIC-III)和存储于加州大学尔湾分校(UCI)的数据集。纳入模型的变量数量差异很大,最少为4项,最多为1222项。算法推荐方面,21项研究推荐随机森林,7项推荐XGBoost。变量重要性方面,年龄被提及30次,血清肌酐21次,血清钠16次,射血分数(Ejection Fraction,EF)13次,收缩压和血小板各12次,血尿素氮(Blood Urea Nitrogen,BUN)10次。其他提及超过5次的变量包括NT-proBNP与BNP(9次)、舒张压(8次)、性别(8次)、体重指数(Body Mass Index,BMI)(7次)和血红蛋白(6次)。支持向量机在最高报告准确率和曲线下面积方面均达到1.0,但需警惕过拟合。