编辑推荐:
这篇研究通过机器学习(ML)算法构建了预测乳腺癌(BC)新辅助化疗(NAC)后病理完全缓解(pCR)的模型,整合了年龄、HER2状态、基质肿瘤浸润淋巴细胞(sTILs)等12项基线特征。CatBoost模型表现最优(AUC=0.853),SHAP分析揭示sTILs为关键预测因子,为个体化治疗策略提供了可解释的决策工具。
研究聚焦乳腺癌(BC)新辅助化疗(NAC)后病理完全缓解(pCR)的预测,通过机器学习(ML)整合基线临床病理特征,构建高精度模型。pCR是BC患者生存的重要预后指标,但现有模型依赖简单影像特征且解释性不足。本研究旨在开发兼具高预测性能和临床可解释性的ML工具。
回顾性纳入浙江省人民医院2014-2028年接受NAC的303例BC患者(pCR率29.37%),随机分为训练集(70%)和验证集(30%)。通过LASSO回归筛选出12项关键特征,包括年龄、绝经状态、HER2、Ki-67和基质肿瘤浸润淋巴细胞(sTILs)等。采用XGBoost、LightGBM、CatBoost等6种ML算法建模,以AUC、准确率等指标评估性能,并利用SHAP(SHapley Additive exPlanation)框架解析模型。
CatBoost模型表现最优,测试集AUC达0.853,显著优于其他模型(如SVM AUC=0.733)。SHAP分析显示,sTILs贡献度最高(SHAP值0.83),其次为HER2状态和年龄。五折交叉验证中,含sTILs的模型平均AUC为0.83,剔除后降至0.70,证实其核心预测价值。决策曲线分析(DCA)表明,CatBoost在临床阈值概率50%时净获益最大。
研究创新性引入sTILs作为微环境标志物,弥补了既往模型依赖影像特征的局限。sTILs高表达(阈值17.5%)与pCR正相关,可能与免疫微环境增强化疗敏感性有关。HER2强阳性、Ki-67高表达亦促进pCR,而高龄、高红细胞分布宽度(RDW)和大肿瘤尺寸则负向影响。模型校准曲线紧贴对角线,预测概率与实际结果高度一致。
样本量较小(n=303)且为单中心回顾性数据,需多中心前瞻性验证。未来可整合多组学数据进一步提升模型性能。
基于CatBoost的可解释预测模型为BC患者NAC疗效评估提供了可靠工具,sTILs的引入显著提升预测效能,助力临床个体化决策。
生物通 版权所有