基于机器学习构建乳腺癌幸存者胰岛素抵抗早期筛查模型:一项利用NHANES数据的横断面研究

时间:2025年9月27日
来源:BMC Medical Informatics and Decision Making

编辑推荐:

为解决乳腺癌幸存者胰岛素抵抗(IR)早期筛查难题,研究团队利用NHANES 21年数据,通过机器学习算法开发了仅需7项临床指标的精准预测模型。随机森林(RF)和支持向量机(SVM)模型表现优异(AUC>0.87),空腹血糖(FBG)被确认为最关键预测因子,为高危人群的糖尿病早期干预提供了临床实用工具。

广告
   X   

在全球乳腺癌发病率持续攀升的背景下,随着筛查技术和治疗手段的进步,乳腺癌幸存者群体日益庞大。这些幸存者面临着新的健康挑战——研究显示高达三分之一的乳腺癌患者会并发糖尿病,而两种疾病的共存会导致更差的临床结局。胰岛素抵抗(Insulin Resistance, IR)作为糖尿病发展的关键早期标志,其早期识别对改善乳腺癌幸存者预后具有重要意义。然而,传统胰岛素抵抗评估依赖的HOMA-IR计算需要检测胰岛素水平,这在常规临床实践中并未普及,导致大量高危人群未能得到及时筛查。
为解决这一临床困境,来自北京大学国际医院和首都医科大学北京世纪坛医院的研究团队开展了一项创新研究,他们利用美国国家健康与营养调查(NHANES)跨越21年的海量数据,首次开发了专门针对乳腺癌幸存人群的胰岛素抵抗机器学习预测模型。这项研究成果近期发表在《BMC Medical Informatics and Decision Making》期刊上,为临床医生提供了无需胰岛素检测的便捷筛查工具。
研究人员采用了一项关键技术方法:从1999年至2020年3月的11个NHANES周期中筛选出340名乳腺癌幸存者数据,通过LASSO回归筛选出7个易获取特征(体质指数、空腹血糖、甘油三酯、高密度脂蛋白胆固醇、贫困收入比、种族和教育水平),采用随机分割将样本分为训练集(70%)和测试集(30),运用四种机器学习算法(逻辑回归、随机森林、XGBoost和支持向量机)进行模型构建,并通过SHAP分析实现模型可解释性。
研究结果方面,通过参与者筛选与特征分析发现,胰岛素抵抗组患者更易伴有肥胖、糖尿病和高血压,且血糖、糖化血红蛋白和甘油三酯水平显著升高。通过变量选择与模型构建显示LASSO回归确定的7个特征均无多重共线性问题,且空腹血糖与体质指数呈现最强预测能力。
模型性能评估结果表明所有模型在测试集中均表现优异:随机森林和支持向量机模型的AUC值均超过0.87,且决策曲线分析显示这两种模型具有更高的临床适用性。
特征重要性解析通过SHAP分析揭示:空腹血糖是胰岛素抵抗的最强正向预测因子,其次是体质指数和甘油三酯;而高密度脂蛋白胆固醇、较高教育水平和收入水平则显示保护作用。
全模型与单预测因子比较显示多变量组合模型(AUC=0.880)显著优于任何单一预测因子,证明了多特征联合的附加价值。
研究结论与讨论部分强调,该研究首次开发了针对乳腺癌幸存者的胰岛素抵抗机器学习预测模型,仅需7个易获取临床指标即可实现精准预测(AUC>0.87)。空腹血糖被确定为最强预测因子,这与胰岛素抵抗的病理生理机制高度一致。随机森林和支持向量机模型展现出最优的分类性能和临床适用性,为乳腺癌幸存者的糖尿病早期预防提供了实用工具。研究的创新性在于将机器学习技术与临床需求紧密结合,开发的模型不仅具有高精度,还具备良好的临床可操作性。尽管存在单次测量、选择偏倚和缺乏外部验证等限制,但这项研究为高危人群的代谢健康管理提供了新思路,未来通过外部验证和临床工具开发,有望真正实现个体化早期干预,改善乳腺癌幸存者的长期生存质量。

生物通微信公众号
微信
新浪微博


生物通 版权所有