背景:乳腺癌相关淋巴水肿(Breast Cancer-Related Lymphedema, BCRL)是乳腺癌治疗后常见并发症,具有不可逆性与高致残率。目前临床痛点在于难以早期识别高危患者。本研究聚焦BCRL风险预测,整合机器学习技术与多维度临床数据构建实用防治工具,为BCRL精准预防提供参考。方法:纳入2021年1月至2025年5月接受乳腺癌手术及治疗的受试者,以患侧上肢周径差≥2 cm为BCRL诊断标准。采用LASSO回归、支持向量机递归特征消除(Support Vector Machine Recursive Feature Elimination, SVM-RFE)、随机森林(Random Forest, RF)及Boruta四种算法对34个变量进行特征筛选,取四法共同选出的特征作为建模变量。应用SHAP(Shapley Additive exPlanations)值分析,构建并验证基于Stacking集成学习的可解释BCRL风险预测模型,并开发可视化Web工具。结果:共纳入570例合格患者,分为训练集(420例)与时间验证集(150例)。筛选出7项核心特征,包括临床特征(体质指数[Body Mass Index, BMI]、肿瘤临床分期、手术方式、腋窝淋巴结处理方式、糖尿病)及可改变特征(患者对BCRL的认知程度、术后每日持手机时间)。Stacking模型性能最优,训练集与验证集ROC-AUC分别为0.911和0.868,PR-AUC分别为0.857和0.789。Web工具StackBCRL可在线访问。结论:通过整合术后行为特征(每日持手机时间及BCRL认知程度)构建基于Stacking集成学习的可解释BCRL风险预测模型,所开发的BCRL风险评估系统可实现实时个体化风险预测与可视化,为BCRL大规模低成本早期筛查提供简便实用方法,适于临床推广并为BCRL防控提供创新方案。
论文解读:《Development and validation of an interpretable stacking-based risk model for breast cancer-related lymphoedema: a cross-sectional study》(发表于Frontiers in Oncology)
研究背景与目的
乳腺癌早期诊治水平提升使患者的5年生存率在发达国家超过85%,乳腺癌逐渐转为慢性病,但治疗相关远期并发症成为长期管理的难点。乳腺癌相关淋巴水肿(Breast Cancer-Related Lymphedema, BCRL)是乳腺癌腋窝手术(如腋窝淋巴结清扫[Axillary Lymph Node Dissection, ALND]或前哨淋巴结活检[Sentinel Lymph Node Biopsy, SLNB])后最常见且严重的并发症之一,由淋巴回流受阻致组织液积聚引起患肢肿胀,可伴疼痛、功能障碍及皮肤改变,具高致残率且不可逆,显著降低生存质量。现有BCRL风险预测模型存在偏倚大、泛化能力不足问题,多聚焦于不可控危险因素(年龄、BMI、肿瘤分期、术式、放化疗等),而对可控的术后行为与生活方式因素关注较少。随着智能手机普及,乳腺癌术后患者常长时间以患侧手持机娱乐,但其与BCRL发生的关联尚未明确。本研究旨在传统不可控危险因素基础上,整合术后行为生活方式(特别是每日持手机时间及BCRL认知度),构建基于Stacking集成学习(Stacking ensemble learning)的可解释BCRL风险预测模型,为临床早期筛查与个体化预防提供实用工具。
研究人员回顾性连续收集2021年1月至2025年5月汉中市中心医院乳腺外科等科室符合标准的单侧乳腺癌术后患者,经纳排标准筛选最终入组570例,按入组时间划分为训练集(2021—2023年,n=420)与时间为验证集(2024—2025年,n=150)。提取电子病历及结构化问卷收集34个变量(人口学、临床病理、治疗方式、合并症、术后行为),以双侧上肢四点(腕横纹、腕横纹上10 cm、肘前窝、肘前窝上10 cm)周径差≥2 cm结合临床症状确诊BCRL。缺失值<5%行完整病例分析;连续变量离散化、无序分类变量独热编码(one-hot encoding)。特征筛选采用LASSO回归、SVM-RFE、RF及Boruta四算法共识取交集;SMOTE(Synthetic Minority Over-sampling Technique)过采样处理类别不平衡且仅用于训练折内防数据泄露;以Logistic Regression(LR)、Naïve Bayes、K最近邻(K-Nearest Neighbors, KNN)、径向基核支持向量机(Radial Basis Function-Support Vector Machine, RBF-SVM)、多层感知机(Multilayer Perceptron, MLP)、决策树(Decision Tree, DT)、RF及XGBoost为基学习器,LASSO为元模型构建Stacking模型;用SHAP值做全局与局部解释;基于R/Shiny开发Web工具StackBCRL。性能评估指标含ROC-AUC、PR-AUC(Precision-Recall AUC)、准确率、灵敏度、特异度、Brier评分及决策曲线分析(Decision Curve Analysis, DCA)。
研究结果
3.1 Participant characteristics(研究对象特征)
训练集与验证集BCRL发生率分别为37.1%与36.7%(P>0.05),基线均衡可比。单因素分析显示BCRL组BMI更高(P<0.01);肿瘤临床分期晚(Ⅲ期)、T/N分期高、浸润性导管癌比例高(P<0.01);行全乳切除、ALND、I~II/III级腋窝淋巴结清扫、新辅助化疗(Neoadjuvant Chemotherapy, NAC)、胸壁±锁骨上区放疗者占比高(P<0.01);合并糖尿病、高血压及有术后并发症者多(P<0.05);对BCRL不知晓/认知差、未行康复护理、每日持手机>2 h者比例显著更高(P<0.05)。
3.2 Feature selection(特征筛选)
四算法分别选出15、15、17、15个特征,取交集得7个核心变量:手术方式、肿瘤临床分期、术后每日持手机时间、腋窝淋巴结处理方式、BMI、合并糖尿病、患者对BCRL的认知程度。
3.3 Construction and evaluation of the optimal model(最优模型构建与评价)
Stacking集成模型训练集ROC-AUC=0.911,PR-AUC=0.857,准确率0.817,灵敏度0.814,特异度0.818;时间验证集ROC-AUC=0.868(95% CI: 0.823–0.906),PR-AUC=0.789(95% CI: 0.731–0.842),灵敏度0.836(95% CI: 0.765–0.895),特异度0.716(95% CI: 0.642–0.788),Brier评分0.154。性能优于各单一基模型(LR验证集ROC-AUC=0.780;朴素贝叶斯灵敏度高但特异度低仅0.558;XGBoost特异度高但灵敏度低)。校准曲线显示Stacking与LR校准最佳(Brier=0.154);DCA显示Stacking在阈值概率0.2–0.6范围内净获益高于LR及"全干预/不干预"策略。
3.4 Model explanation(模型解释)
SHAP全局重要性排序:手术方式(mean |SHAP|=0.105)>肿瘤临床分期(0.090)>每日持手机时间(0.065)>BMI(0.063)>腋窝淋巴结处理方式(0.060)>糖尿病与BCRL认知度(均0.038)。SHAP依赖图表明:全乳切除、临床Ⅲ期、每日持手机>2 h、超重/肥胖、ALND、患糖尿病、BCRL认知不足→SHAP值为正(升风险);保乳手术、Ⅰ期、持手机<1 h、正常/低体重、SLNB、无糖尿病、BCRL认知好→SHAP值为负(降风险)。个体Force Plot与Waterfall Plot可展示从基线期望E[f(x)]=0.433起各特征SHAP值累加得到个体预测概率。
3.5 Visual web tool: StackBCRL(可视化Web工具StackBCRL)
基于R/Shiny部署在线工具(https://dbf5yo-aikemi-xia.shinyapps.io/StackBCRL/ ),含数据录入与批量导入、Stacking模型实时风险概率与分类输出、SHAP特征贡献力图与瀑布图可视化模块,支持结果导出。
讨论与结论总结
既往研究证实ALND/全乳切除、晚期肿瘤分期、高BMI是BCRL独立危险因素,本研究结果与之吻合。本研究创新性地发现并纳入术后每日持手机时间及BCRL认知度为预测因子——长时间持手机可能通过持续低强度指腕肌活动(低效肌泵)或不良姿势压迫腋/锁骨下淋巴通路,或因忽视患肢早期预警信号与整体活动不足相关,但本研究为横断面设计不能推定因果,需前瞻性研究验证。将可改变行为因素纳入模型是BCRL风险研究从不可控向可控因素转变的体现。Stacking集成降低基模型偏差与方差,时间验证显示良好泛化;SHAP解释使"黑箱"模型透明且符合临床病理机制,增强临床可接受性;StackBCRL工具降低使用门槛促临床转化。局限性含单中心横断面、仅为时间验证非多中心外部验证、行为变量为自报无客观监测、未前瞻验证工具对预后影响。
结论翻译(浓缩):研究人员构建并验证了整合术后行为因素(每日持手机时间及BCRL认知)的基于Stacking集成学习的可解释BCRL风险预测模型,开发StackBCRL可视化网络工具实现个体化风险实时预测与可视化。横断面分析提示术后每日持手机时间及BCRL认知度与BCRL风险相关,为BCRL防控提供新思路,因果关系有待前瞻性研究检验。
打赏