利用机器学习的代谢组学技术,通过超高性能液相色谱-串联四极杆质谱(UHPLC-Q-TOF-MS/MS)结合SHAP(SHapely Regression Analysis of Predictive Models)方法,对日本忍冬(Lonicera japonica)进行地理身份鉴定

时间:2026年1月19日
来源:Food Chemistry

编辑推荐:

本研究通过代谢组学结合机器学习及SHAP解释,揭示金银花(Lonicera japonica)八个产地的代谢特征差异,筛选出七项关键鉴别代谢物(AUC=0.99),为地理溯源和质控提供可解释的解决方案。

广告
   X   

作者:薛青、朱炳杰、李峥、唐宇、王毅
天津中医药大学中医学院,中国天津 301617

摘要

地理溯源对于确保食品和药用植物的真实性和质量至关重要。Lonicera japonica Thunb.(金银花,JYH)因其药理和营养价值而被广泛使用,但其质量高度依赖于产地,并且容易受到掺假。在本研究中,我们结合了超高效液相色谱-四极杆飞行时间串联质谱(UHPLC-Q-TOF-MS/MS)代谢组学技术与机器学习方法,对来自八个产地的JYH进行了精确鉴定。通过代谢组学分析并利用分子网络技术,我们对156个分析样本进行了表征,鉴定了136种代谢物。在测试的13个模型中,CatBoost模型表现最佳(AUC = 0.99)。Shapley加性解释(SHAP)分析有助于全局和局部理解分类特征。通过多标记物筛选,我们确定了7种具有高准确率(0.87,AUC = 0.99)的关键鉴别标记化合物,这些化合物显示出与产地相关的明显丰度模式。这种可转移且可解释的工作流程为JYH的溯源和质量控制提供了可靠的解决方案,并为其他医药-食品同源物的真实性验证提供了范例。

引言

Lonicera japonica Thunb.(金银花,JYH)是忍冬科植物的干燥花蕾或初开花朵,是一种兼具药用和食用价值的植物,富含有机酸、黄酮类和萜类等生物活性化合物(Shang等,2011;Wang等,2025)。JYH具有广泛的药理作用,包括抗病毒、抗氧化和抗炎活性(Wan等,2020;Wang等,2016;Xiong等,2024)。由于其健康益处,JYH被广泛用于功能性食品、草药茶和营养保健品中,国内外的需求持续增长(Ma等,2024;Yang等,2023)。JYH的质量和化学成分受产地影响显著。主要产地在中国北方,包括山东、河南和河北省份,其中山东省的产量占比超过60%(Liu等,2023)。然而,气候、土壤成分和生长季节长度等环境因素会导致代谢物谱型和治疗效力的差异(Chen等,2019)。目前,JYH的质量控制标准主要依赖于少数标记化合物的定量分析(例如绿原酸和木犀草苷)(中华人民共和国药典委员会,2020)。虽然这些标记化合物有助于基本的质量保证,但它们无法全面反映代谢多样性,也不足以准确鉴定产地来源。
为了解决这一问题,需要强大的分析方法来解析不同产地JYH的全面化学特征。非靶向代谢组学技术,尤其是与超高效液相色谱和高分辨率质谱(UHPLC-HRMS)结合使用时,由于其能够高灵敏度和高质量地检测多种小分子,因此是理想的解决方案(Xu等,2025;Spataro等,2025)。然而,在复杂的植物基质中注释代谢物仍然是一个瓶颈。在这项研究中,我们使用了之前开发的MassKG平台进行初步化合物鉴定(Zhu等,2024),然后通过质谱分子网络技术(Nothias等,2020)计算MS/MS光谱相似性(余弦得分≥0.7)来验证鉴定结果的准确性。这种方法利用峰-峰相关性分析提高了注释的覆盖率和可靠性,超越了传统技术的局限。这些共同努力为后续分析奠定了全面而坚实的基础。
非靶向代谢组学生成的高维特征矩阵需要多变量统计方法进行数据分析。机器学习(ML)为识别区分性特征和提高复杂数据集的分类准确性提供了强大的框架。先前的研究已成功将ML模型应用于姜黄和柑橘类植物的溯源挑战(Huang等,2025;Ratnasekhar等,2025)。然而,许多ML模型属于“黑箱”类型,虽然预测准确率高,但无法解释背后的决策过程(Rudin等,2019)。为了解决这一问题,最近提出了多种可解释的ML算法(Nauta等,2023)。其中,Shapley加性解释(SHAP)因其操作简便性和全面性而受到广泛关注(Ponce-Bobadilla等,2024;Strumbelj等,2010)。SHAP基于博弈论,计算每个特征对个体预测的贡献值(Shapley值),在全局(整体特征重要性)和局部(单个样本预测解释)层面提供了直观且一致的可解释性(Lundberg等,2017)。这种方法不仅阐明了模型的决策逻辑,增强了结果的可信度,更重要的是,能够精确识别和量化最具区分性的关键代谢物,从而实现溯源分类。这些发现为理解不同产地之间的代谢差异提供了重要线索。
在本研究中,我们开发了一种集成方案,结合了超高效液相色谱-四极杆飞行时间串联质谱(UHPLC-Q-TOF-MS)非靶向代谢组学技术与ML和SHAP解释方法,实现了对山东省八个地区JYH样本的高分辨率地理分类。我们构建并评估了多种分类器,确定了最稳健的预测模型,识别出驱动地区差异的关键代谢标记物,并建立了标记物选择和验证的工作流程。该研究不仅为JYH的溯源提供了实用解决方案,也为其他医药和食品同源植物的质量控制提供了可扩展的策略。

化学物质和试剂

标准化合物,包括绿原酸、隐绿原酸、新绿原酸、异绿原酸A、异绿原酸B、异绿原酸C、洛汉宁、木犀草素-7-O-葡萄糖苷、山柰酚-3-O-鼠李糖苷、伊卡里苷F2和伊卡里苷B5,购自成都德赛特生物技术有限公司;槲皮素-3-O-桑布比奥苷和(+)-1-羟基松脂醇-1-β-D-葡萄糖苷购自成都Naturewill生物技术有限公司。HPLC级甲醇等试剂亦由该公司提供。

数据质量评估

基于文献回顾和正负离子模式下的数据采集,我们发现负离子模式在检测JYH中的化学成分方面表现更优(负离子模式下化合物响应更强,基线噪声更低)。因此,化合物分析采用负离子模式下的电喷雾离子化技术。负离子模式下的总离子色谱图(TIC)见图2A。

结论

本研究提出了一种综合策略,结合了UHPLC-Q-TOF-MS/MS非靶向代谢组学技术、ML和SHAP解释方法,用于追踪JYH的地理来源。首先,我们使用一组有限但化学成分多样的13个真实标准样品,验证了MassKG平台在我们特定的UHLC-Q-TOF-MS/MS系统中的注释性能。在此基础上,我们对更广泛的化学空间进行了假定性注释,并通过分子网络进一步确认了这些结果。

CRediT作者贡献声明

薛青:撰写——原始草稿、可视化、验证、研究、数据分析、概念化。 朱炳杰:可视化、研究。 李峥:监督、软件开发。 唐宇:撰写——审稿与编辑、验证、项目管理。 王毅:撰写——审稿与编辑、研究、资金获取、概念化。

未引用的参考文献

Kang, Zhao, Yao and Tan, 2024 Lundberg and Lee, 2017 Rudin, 2019 Strumbelj and Kononenko, 2010 中华人民共和国药典委员会, 2020 Xue, Shang, Yang, Li and Yang, 2025

利益冲突声明

作者声明没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本研究得到了山东省自然科学基金(项目编号ZR2023LZY003)、浙江省“先锋”和“领头鹅”研发计划(项目编号2025C01110)、天津市科技计划(项目编号24ZXZSSS00460)以及中国教育部基础与交叉学科突破计划(项目编号JYB2025XDXM609)的支持。作者感谢山东大学药学院沈涛教授团队提供的Lonicera japonica Thunb>样品。

生物通微信公众号
微信
新浪微博


生物通 版权所有