基于机器学习的临床数据聚类预测三阴性乳腺癌患者总生存期与无复发生存期

时间:2025年7月31日
来源:Clinical Biomechanics

编辑推荐:

三阴性乳腺癌(TNBC)因分子异质性和高复发率导致预后预测困难。研究人员通过机器学习算法(k-prototypes聚类和随机森林模型)对4808例TNBC患者临床数据进行分析,识别出4个风险特征显著的亚群,构建的预测模型在死亡率(AUC=0.78)和复发率(AUC=0.76)预测中表现优异,为个性化治疗决策提供了新工具。

广告
   X   

三阴性乳腺癌(TNBC)被称为乳腺癌中的"顽敌",约占所有乳腺癌病例的15%-20%。这种特殊亚型不仅缺乏雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)的表达,更以其侵袭性强、早期复发率高著称。由于缺少靶向治疗的"靶点",化疗仍是主要治疗手段,但效果差强人意——患者的5年生存率显著低于其他亚型。更棘手的是,TNBC具有高度异质性,传统临床指标难以准确预测哪些患者更容易复发或死亡,这就像面对一群戴着相同面具的敌人,却无法辨别其中谁更具危险性。

来自哥伦比亚国立大学波哥大校区医学院病理学系(Universidad Nacional de Colombia – Sede Bogotá, Facultad de Medicina – Depto. de Patología)的Juan Pablo Alzate-Granados和Luis Fernando Niño团队决心破解这个难题。他们创新性地将人工智能引入TNBC研究,通过对4808例患者大数据的深度挖掘,成功绘制出TNBC的"风险地图",相关成果发表在《Clinical Biomechanics》上。

研究团队采用SEMMA数据预处理流程,整合2012-2024年间确诊的TNBC患者临床数据,应用k-prototypes算法处理混合型变量(连续型和分类变量),通过肘部法则确定最佳聚类数。随后采用随机森林构建预测模型,并利用分层交叉验证评估性能,Cox回归分析识别风险因素。

研究结果部分揭示:

机器学习的风险分层
通过分析年龄、Charlson合并症指数、ECOG评分等28项临床变量,算法将患者分为4个特征鲜明的亚群。最具警示性的是Cluster 3组——71%携带BRCA1/2突变、56.78%患者ECOG评分3-4分,其死亡率(42.3%)和复发率(54.25%)均显著高于其他组,相当于每2位患者中就有1人在随访期内复发。

预测模型的精准表现
随机森林模型展现出临床实用价值:死亡率预测准确率达80%(AUC=0.78),复发预测准确率75%(AUC=0.76)。值得注意的是,模型发现身高、体重等看似普通的指标也具有预测价值——身高每增加1cm,死亡风险上升1.3%(HR=1.013)。

关键风险因素的识别
Cox回归证实:Charlson指数每增加1分,死亡风险提升2.4%;ECOG评分3分患者死亡风险是正常状态患者的1.77倍。而Ki67≥15%和HER2-low表达则显示保护效应,分别降低24%和26%的死亡风险。

这项研究的突破性在于首次将临床指标与分子标志物(BRCA1/2、PD-L1)通过机器学习有机整合,构建的预测模型准确率超越传统方法10%以上。特别值得注意的是,算法揭示了"身高-体重悖论"——虽然BMI升高通常预示不良结局,但模型发现特定身高范围的患者反而预后更好,这种非线性关系正是机器学习捕捉复杂模式的独特优势。

对于临床实践的启示尤为深远:一方面,ECOG评分和Charlson指数这两个常规指标被证实具有超预期的预测价值,提示医生应更系统评估患者基础状态;另一方面,BRCA1/2突变与PD-L1的表达模式为免疫治疗选择提供了新思路。研究团队特别建议,对于跨集群特征的患者(如年轻BRCA突变携带者),应采取"就高不就低"的风险评估原则,优先参考不利因素制定治疗方案。

这项研究的局限在于其回顾性设计,且缺乏转录组数据。未来需要通过前瞻性研究验证模型的临床适用性,并探索将算法嵌入电子病历系统实现实时风险预警。正如作者强调的,机器学习不是要取代医生判断,而是通过揭示隐藏的"风险密码",让临床决策更具预见性——在对抗TNBC这个狡猾的对手时,人工智能正成为医生们新的"解码器"。

生物通微信公众号
微信
新浪微博


生物通 版权所有