用于对患有代谢功能障碍相关脂肪性肝病的患者进行动脉粥样硬化性心血管疾病分类的可解释机器学习模型

时间：2025年10月31日

来源：Frontiers in Endocrinology

编辑推荐：

代谢功能障碍相关脂肪性肝病患者动脉粥样硬化性心血管疾病风险预测模型研究。采用回顾性队列研究，纳入590例MASLD患者，通过LASSO回归筛选出CHG指数、CRI-II、Lp(a)、Scr、UA等关键特征，构建六种机器学习模型。梯度提升树模型（GB）在训练集和验证集均表现出最优性能（AUC 0.918和0.817），SHAP分析揭示CHG、CRI-II、Lp(a)、Scr、UA为Top5预测因子，证实代谢指标与心血管风险的非线性关联。

心血管疾病（CVD）是代谢功能障碍相关脂肪肝（MASLD）患者的主要致死原因，然而，目前临床上用于评估CVD风险的传统预测指标仍然存在一定的局限性。这项研究旨在开发机器学习（ML）模型，以更准确地识别MASLD患者中普遍存在的动脉粥样硬化性心血管疾病（ASCVD）风险，并通过SHapley Additive exPlanations（SHAP）方法提升模型的可解释性，从而为临床决策提供有力支持。

在研究过程中，我们回顾性地纳入了2019年12月至2024年12月期间青岛大学附属医院诊断为MASLD的590名住院患者。这些患者被随机分为训练集（413例）和验证集（177例），比例为7:3。为了筛选关键预测特征，我们采用最小绝对收缩和选择算子（LASSO）回归进行特征选择，该方法通过L1正则化技术减少特征维度，提高模型效率，并控制多重共线性问题。最终，我们从25个初始临床和生化变量中筛选出8个具有强预测能力的特征，包括胆固醇-甘油三酯-血糖（CHG）指数、Castelli风险指数II（CRI-II）、脂蛋白(a) [Lp(a)]、血清肌酐（Scr）和尿酸（UA）等。这些特征反映了患者代谢异常的核心机制，如胰岛素抵抗（IR）、血脂紊乱、肾功能异常和系统性炎症等。

基于这些特征，我们构建了六种常见的机器学习模型，包括随机森林（RF）、逻辑回归（LR）、梯度提升（GB）、自适应提升（AdaBoost）、XGBoost和LightGBM。这些模型在训练集和验证集中均表现出良好的预测性能，其中GB模型在训练集中的AUC值达到0.918（95% CI: 0.890–0.944），在验证集中的AUC值为0.817（95% CI: 0.739–0.883）。与传统的中国人群ASCVD风险评估模型（如China-PAR项目）相比，我们的模型在训练集和验证集中均展现出更高的预测能力，这表明模型在特定MASLD人群中的适用性更强。

SHAP分析不仅揭示了模型的全局特征重要性，还提供了个体层面的预测解释。全局层面的SHAP特征重要性图显示，CHG、CRI-II、Lp(a)、Scr和UA是预测ASCVD风险的前五大关键因素。这些特征的高值与ASCVD的高风险之间存在显著的正向关联。同时，SHAP依赖图进一步展示了这些特征在不同取值范围内的边际效应，揭示了其非线性影响以及可能的阈值效应。在个体层面，我们通过SHAP力图（force plots）对两名代表患者进行了可视化解释，其中一名患者被正确预测为ASCVD阳性（真实阳性），另一名患者被正确预测为ASCVD阴性（真实阴性）。这些力图清晰地展示了每个特征对预测结果的具体贡献，为临床医生提供了直观的理解工具。

研究结果表明，MASLD与ASCVD之间存在密切的代谢关联，MASLD+ASCVD组的患者在多项代谢指标上表现出更严重的异常，这进一步验证了两者在病理生理机制上的重叠。传统的单一血脂指标（如低密度脂蛋白胆固醇，LDL-C）在早期ASCVD分类中表现有限，而复合代谢指数（如CHG、CRI-II、TyG指数等）则能够更全面地反映代谢紊乱对心血管风险的影响。本研究首次系统评估了CHG指数在MASLD患者中对ASCVD风险的识别能力，拓展了其在早期代谢风险评估中的潜在应用。

值得注意的是，尽管机器学习模型在处理复杂非线性关系方面表现出色，但其“黑箱”特性常常限制了其在临床中的广泛应用。因此，我们采用SHAP方法提升模型的透明度和临床可接受性。通过SHAP的全局和个体层面分析，不仅增强了模型的解释能力，还为临床决策支持系统（CDSS）的开发提供了理论依据。SHAP的引入使得模型能够以直观的方式解释预测逻辑，从而提高了其在实际医疗场景中的应用价值。

尽管本研究取得了显著成果，但也存在一些局限性。首先，本研究为单中心回顾性分析，样本主要来自三级医院的心内科门诊，导致ASCVD的观察患病率（73.6%）高于一般人群的流行病学数据。这种设计虽然有助于提高模型的事件率，但也可能引入选择偏倚，限制了其在社区一级预防中的推广价值。因此，未来的研究需要在更广泛和多样化的患者群体中进行外部验证。其次，我们的研究依赖于行政编码（如I50.x用于心力衰竭）来定义ASCVD结局，这种方法无法区分动脉粥样硬化性和非动脉粥样硬化性心力衰竭的病因。未来的研究应采用前瞻性设计，结合协议定义的ASCVD判定标准，以提高病因分类的准确性。第三，尽管L1正则化技术有助于减少过拟合，但相对较小的样本量仍然可能影响模型结论的稳健性。第四，当前模型尚未纳入多模态数据，如影像学评分、基因组信息或生活方式因素，这些数据可能进一步提高模型的预测准确性。最后，虽然SHAP分析增强了模型的可解释性，但其临床适用性和接受度仍需通过机制研究和临床路径分析进行进一步验证。

总体而言，本研究成功开发并验证了一种高精度、高可解释性的分类模型，用于识别住院MASLD患者中普遍存在的ASCVD风险。通过将机器学习与SHAP解释方法相结合，该模型在准确性和临床实用性之间实现了良好的平衡。尤其是在全球层面和个体层面的解释能力，为临床决策支持系统的构建提供了坚实的基础。该模型为MASLD患者提供了新的工具，以实现早期ASCVD风险的精准识别和干预。未来的研究应致力于优化模型性能，利用多中心数据集进行验证，并进一步整合影像、基因和行为数据，以构建更全面的早期风险评估工具，支持MASLD患者的个性化心血管风险管理。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部