G.AI.A:集成机器学习平台预测药物生物累积性与生态毒性的创新研究

时间:2026年1月17日
来源:Journal of Chemical Information and Modeling

编辑推荐:

本文综述了G.AI.A平台的开发与应用,该平台通过集成机器学习(ML)模型(如梯度提升和极端随机树)预测药物及其代谢物的生物累积因子(BCF)和半数致死浓度(LC50),并结合代谢预测工具SyGMa,为药物早期设计提供绿色毒理学(Green Toxicology)评估。研究基于欧盟绿色协议(EU Green Deal)的化学品可持续性战略(CSS),通过分子描述符(如PaDEL)和指纹分析(如MACCS、Morgan)揭示了脂溶性(如CrippenLogP)、极性表面积(TopoPSA)等关键特征对生态风险的影响,平台ROC AUC值达94.60%(BCF)和96.06%(LC50),显著优于现有工具(如VEGA、OPERA),推动了“设计即绿色”(Green-by-Design)的药物开发。

广告
   X   

引言:药物环境污染与计算毒理学新策略
药物污染对水生生态系统构成显著威胁,其生物活性化合物通过人类和兽医使用进入水体。为支持欧盟绿色协议的化学品可持续性战略(CSS),本研究开发了一种计算框架,用于预测鱼类环境风险的两个关键指标:生物累积因子(BCF)和生态毒性(以96小时半数致死浓度LC50衡量)。传统定量构效关系(QSAR)模型存在用户友好性差、可解释性不足等局限,而机器学习(ML)方法虽性能优越,却因“黑箱”特性难以满足监管需求。本研究通过整合代谢物预测和模型可解释性分析,旨在为药物早期设计提供环境风险评估工具。
数据与方法:多源数据整合与机器学习模型构建
生物累积数据(1,243种独特化合物)和生态毒性数据(2,940种化合物)从公共数据库(如ECOTOX、EnviroTox)收集,并基于标准化实验指南(如OECD)进行筛选。BCF和LC50分别以REACH阈值(logBCF > 3.30)和CLP规则(LC50< 1 mg/L)进行分类。分子编码采用PaDEL描述符(1D/2D/3D)、MACCS密钥和Morgan指纹,通过随机森林、XGBoost等五种集成分类器进行训练。模型通过7折交叉验证和外部数据集(如Xiao的KOWall3、ADORE的t_F2F)验证,并使用SHAP(SHapley Additive exPlanations)分析特征重要性。代谢物预测通过对比SyGMa、Metapredictor等工具的性能,最终集成SyGMa至平台。
结果与讨论:高精度模型与关键风险特征解析
生物累积预测模型中,梯度提升算法在54种鱼类数据上表现最佳(ROC AUC 86.95%),SHAP分析显示脂溶性描述符(如CrippenLogP、ALogP)和极性表面积(TopoPSA)是区分生物累积性化合物的关键特征。MACCS指纹分析进一步表明,含卤素片段(如比特87)和多环芳香结构(比特62)与生物累积性显著相关。生态毒性预测中,极端随机树模型ROC AUC达90.96%,脂溶性和分子大小相关描述符(如SpMax5_Bhm)被识别为核心影响因素。与VEGA、OPERA等工具相比,G.AI.A模型在外部验证中灵敏度(BCF模型84.88%、LC50模型83.88%)和ROC AUC(分别达94.60%和96.06%)均显著优于现有工具。
代谢物风险评估与平台集成
通过SyGMa预测药物代谢物(准确率52%),并评估其生态毒性。例如,抗哮喘药齐留通(zileuton)的代谢物中部分被分类为生态毒性或生物累积性。G.AI.A平台(https://gaiatox.eu/)提供两种模式:单分子SMILES分析(最多3个)可输出分类结果、置信度及代谢物风险;批量处理模式支持高通量筛选。平台通过t-SNE可视化化合物在训练数据中的分布,并突出显示导致高风险分类的结构特征。
结论:绿色药物设计的计算工具展望
G.AI.A平台将高性能机器学习模型与代谢物预测相结合,为药物早期开发提供了全面的环境风险评估工具。其高精度和可解释性有助于减少动物实验,推动符合绿色化学原则的可持续药物设计。未来可扩展至更多物种和复杂环境因素分析,进一步强化其在监管科学中的应用价值。

生物通微信公众号
微信
新浪微博


生物通 版权所有