比较人工构建与自动化机器学习(machine learning, ML)及深度学习(deep learning, DL)模型预测老年髋部骨折患者术后一年全因死亡率的性能

时间：2026年6月1日

来源：Frontiers in Medicine

编辑推荐：

摘要：背景：髋部骨折尤其对老年患者伴随显著死亡风险。准确预测死亡风险对优化围术期护理与资源配置至关重要。近期机器学习(ML)及深度学习(DL)进展为增强临床风险预测模型提供了新途径，但其临床转化常受限于技术复杂性。方法：本研究为回顾性队列研究，纳入2017年1

摘要：背景：髋部骨折尤其对老年患者伴随显著死亡风险。准确预测死亡风险对优化围术期护理与资源配置至关重要。近期机器学习(ML)及深度学习(DL)进展为增强临床风险预测模型提供了新途径，但其临床转化常受限于技术复杂性。方法：本研究为回顾性队列研究，纳入2017年1月至2023年11月于以色列Sheba医学中心接受急诊髋部骨折手术的2604例≥65岁老年患者，利用临床、人口学、围术期及实验室检查变量预测一年全因死亡率。研究人员通过分层5折交叉验证(stratified 5-fold cross-validation)严格开发与验证多类ML及DL模型，采用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)处理类别不平衡。此外，研究人员使用大语言模型(large language model, LLM)结合基于树的流水线优化工具(Tree-based Pipeline Optimisation Tool, TPOT)生成自动化ML流水线，并与人工调优模型进行基准比对。模型性能以受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC)、准确率(accuracy)、精确率(precision)、召回率(recall)、F1分数(F1-score)、假阳性率(false-positive rate, FPR)及真阴性率(true-negative rate, TNR)评估，并以排列重要性(permutation importance)及SHapley Additive exPlanations(SHAP)进行可解释性分析。结果：所有模型中，人工调优的极端梯度提升(eXtreme Gradient Boosting, XGB)算法预测性能最优(AUC = 0.846，准确率 = 0.791，F1分数 = 0.667，精确率 = 0.773，负预测值NPV = 0.798)。重要预测因子包括基线血清白蛋白(albumin)及尿素(urea)水平、患者年龄、术中低体温(intraoperative hypothermia)及慢性病数量。由LLM联合TPOT框架生成的自动化ML模型表现与XGB相当(AUC = 0.844)，召回率更高但精确率略低。讨论：基于ML的模型——尤其是XGB算法——可显著提升老年髋部骨折患者一年死亡率的预测准确性。关键的是，借助大语言模型驱动的自动化ML框架为临床提供了一种实用且临床可及的替代方案，有效推动了高级预测分析在医疗场景中的普及(democratising)。

论文解读：比较人工构建与自动化机器学习及深度学习模型预测老年髋部骨折患者一年死亡率

该研究发表于《Frontiers in Medicine》。髋部骨折是全球重大公共卫生问题，预计2050年年发病约450万例，主要累及老年人，术后一年死亡率可达36%。传统统计方法难以处理临床变量间复杂的非线性交互关系，而机器学习(machine learning, ML)与深度学习(deep learning, DL)为此提供了可能，但因建模门槛高限制了临床落地。本研究旨在系统评估多种ML/DL算法预测老年髋部骨折患者一年全因死亡率的能力，并探讨由大语言模型(large language model, LLM)辅助的自动化ML流程是否能作为无深厚数据科学背景的临床人员可用的替代方案，通过与人工调优模型比对验证其效能与可解释性。

研究人员回顾性纳入以色列Sheba Medical Center 2017年1月至2023年11月接受急诊髋部骨折手术的≥65岁患者共2604例，提取人口学、功能状态、合并症、实验室参数、生理指标、术中细节及术后结局变量。排除高能量创伤、多发骨折、开放骨折及肿瘤或代谢性骨病所致病理性骨折。主要结局为伤后一年内全因死亡，死亡数据来源于卫生部生命状态登记并经病历复核验证。数据集按8∶2分为训练集与测试集，训练集采用分层(stratified)k折(k=5)交叉验证，使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)平衡少数类。人工建模算法涵盖逻辑回归(logistic regression, LR)、朴素贝叶斯(naïve Bayes, NB)、k近邻(k-nearest neighbours, kNN)、支持向量机(support vector machine, SVM)、决策树(decision tree, DT)、随机森林(random forest, RF)及L₂正则化极端梯度提升(XGBoost, XGB)；深度学习模型含多层感知机(multilayer perceptron, MLP)、TabNet及TabTransformer(TT)，超参数通过网格搜索(grid search)寻优。自动化ML流程由ChatGPT-o3输入结构化提示词自动生成基于树的流水线优化工具(Tree-based Pipeline Optimisation Tool, TPOT)代码并直接运行，得到CatBoost+kNN+RF集成多数投票模型。性能评估指标含AUC、准确率(accuracy)、F1分数(F1-score)、召回率(recall/灵敏度sensitivity)、精确率(precision/阳性预测值PPV)、假阳性率(false-positive rate, FPR)、真阴性率(true-negative rate, TNR)及负预测值(negative predictive value, NPV)；特征重要性采用排列重要性(permutation importance)与SHAP(SHapley Additive exPlanations)分析。

Descriptive statistics（描述性统计）

最终队列2604例，女性1719例(66.0%)，平均年龄82.3岁(SD 8.3)。Pearson相关矩阵显示各预测因子与目标变量一年死亡率线性相关性弱，提示非线性ML方法应优于传统线性方法。

Model performance（模型性能）

在原始未平衡数据下，XGBoost模型综合表现最佳，AUC = 0.846、准确率 = 0.791、F1分数 = 0.667、精确率 = 0.773、NPV = 0.798，召回率 = 0.586。Naïve Bayes召回率最高(0.968)但准确率低(0.380)；TabTransformer虽精确率高(0.857)但召回率极低(0.032)、AUC仅0.580，存在严重类别偏向。SMOTE平衡后Random Forest AUC略升至0.849，XGB各项指标仍较均衡且F1分数最优。综合考量不平衡分类任务下召回与精确平衡，XGB被选为最优手工模型。

Feature importance（特征重要性）

基于平衡数据训练的XGB模型，排列重要性前六位依次为基线白蛋白(alb_base)、基线尿素(urea_base)、年龄(Age)、术中低体温(hypoterm)、性别(Sex，男性风险高)、美国麻醉医师协会分级(ASA, American Society of Anesthesiologists Physical Status classification)。SHAP分析确认年龄增大、基线白蛋白降低、术中低体温及男性性别与一年死亡风险升高正相关，ASA评分与预测死亡概率呈单调正相关。

Automatic ML model（自动化ML模型）

LLM+TPOT自动生成的CatBoost/kNN/RF集成多数投票模型在原始数据下AUC = 0.844、F1分数 = 0.698、召回率 = 0.887，精确率 = 0.575；平衡数据下AUC = 0.825、F1分数 = 0.720、召回率 = 0.891。与手工XGB相比AUC差异极小(≤0.021)，手工XGB精确率、FPR及TNR更优，自动ML召回率及F1更高。ROC曲线、特征重要性排序及SHAP分析在两种方法中高度一致，表明自动ML具备可比的临床可解释性。

讨论与结论

研究人员指出传统ML方法在结构化表格临床数据上总体优于DL模型，与既往多临床数据集评估结果一致。手工构建的XGBoost因擅长处理高维异质临床预测因子且获最优F1分数，是识别高危患者的可靠工具，关键预测因子（年龄、基线白蛋白、基线尿素、术中低体温）与既有文献吻合，佐证模型临床效度。LLM驱动TPOT自动ML流程所得模型预测性能与手工XGB相近，特征解释一致，说明此类自动化工作流可为缺乏专业ML技术背景的临床团队提供快速可行的预测分析途径，降低开发壁垒与资源需求，但临床问题界定、数据适用性审查及结果临床合理性审核仍需专业人员参与（human-in-the-loop）。局限性含单中心回顾性设计潜在选择偏倚、仅纳入静态常规临床变量未涉及动态时序数据、观察时段有限需外部验证与周期性重校准，以及终点为全因死亡而非死因分层。结论为：ML模型尤指XGBoost可有效预测老年髋部骨折手术患者一年全因死亡率；LLM辅助的自动化ML框架能达到近似效能，有望推动高级预测分析在临床中的普及应用。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部