综述:基于机器学习的定量结构活性关系(ML-QSAR)模型在环境科学中的应用

时间:2026年1月27日
来源:Environmental Research

编辑推荐:

本文系统评述了基于机器学习(ML)的定量结构-活性关系(QSAR)在环境科学中的应用,探讨其从传统统计框架向数据驱动的范式转变,强调ML-QSAR在处理复杂化学空间和非线性关系中的优势,并分析其在污染物迁移预测、生态与人类健康风险评估及新兴污染物优先识别等领域的实践与挑战。

广告
   X   

陈超|谭玉佳|刘亚伟|孙淼淼|王志全|郑向勇|沈志敏|赵敏
温州大学生命与环境科学学院,中国浙江省温州市325035

摘要

随着化学信息学数据的指数级增长以及环境领域化学空间的日益复杂,传统的定量结构-活性关系(QSAR)方法——受到预定义功能假设的约束——正面临重大限制。迫切需要转向一种无模型、数据驱动和知识整合的建模范式。本综述系统地探讨了基于机器学习的QSAR(ML-QSAR)在环境科学中的发展和应用。我们展示了从基于假设的经典QSAR向可信的、知识整合的AI系统的范式转变,这些系统嵌入了物理定律、构象预测和化学推理。我们提出了一个全面的ML-QSAR建模框架,涵盖了从数据整理到模型部署的整个生命周期,同时也探讨了其从以人为中心的 workflows 向自主、自我演化的科学发现周期的演变。特别强调了三个主要应用领域:(i)污染物理化性质和环境归趋的预测,(ii)综合生态和人类健康风险评估,以及(iii)新兴污染物的识别和优先级排序。最后,本综述批判性地评估了持续存在的挑战——包括数据稀缺、黑箱不确定性以及监管不一致性——并提出了科学合理的策略来应对这些问题,同时对下一代环境人工智能提出了展望。

引言

定量结构-活性关系(QSAR)是一种化学信息学方法,它根据分子的化学结构预测其生物活性或其他性质,遵循结构决定性质的基本原则(Dearden, 2017; Nantasenamat et al., 2009; Polishchuk, 2017)。QSAR的理论基础可以追溯到20世纪30年代和40年代,当时Hammett和Taft研究了取代基的电子效应,并提出了线性自由能关系理论,为后续的QSAR发展提供了基础框架(Hansch et al., 2002)。20世纪60年代,Corwin Hansch引入了具有里程碑意义的Hansch方程,标志着经典QSAR模型的出现(Hansch et al., 1962)。早期的QSAR研究主要使用小型、同系化合物数据集,其中分子描述符来自经验性的理化参数,模型假设结构和活性之间存在线性相关性(Scior et al., 2009)。这些模型通常使用线性回归或基本统计技术构建,重点评估局部结构修饰对生物活性的影响,而不是预测完全新颖化合物的活性。这种建模方法主要基于相似性-性质原则和结构-活性关系(SAR)的连续性,即结构相似的分子表现出相似的性质,而轻微的结构改变会导致活性的渐进变化。这些假设为在线性模型中的应用提供了理论基础,使研究人员能够基于一系列化合物中的结构-活性模式系统地指导结构修饰和合理设计(Muratov et al., 2020; Wassermann et al., 2010)。
随着化学信息学数据的指数级增长和化学空间的复杂性增加,经典QSAR框架正面临重大挑战(Cherkasov et al., 2014)。化学多样性的迅速扩展大大限制了相似性-性质原则的适用范围(AD),而结构差异的日益异质性在SAR中引入了明显的不连续性,表现为频繁出现的活性悬崖(Muratov et al., 2020; Stumpfe and Bajorath, 2012; Stumpfe et al., 2020)。此外,传统的描述符不足以充分表征复杂的化学空间,也无法捕捉多维结构属性与多机制毒性终点之间的非线性相关性(Gao et al., 2022)。当代研究范式已转向“预测优先”的方向;然而,经典QSAR方法在可解释性和预测准确性之间存在固有的权衡(Shoombuatong et al., 2017)。这些限制导致在大规模数据集上的性能不佳、外推能力受限、对活性悬崖的敏感性增强以及跨领域预测能力的下降。因此,这促进了机器学习(ML)方法在QSAR领域的采用和进步。
机器学习(ML)与传统编程的根本区别在于其本质上是数据驱动的。ML不是遵循预定义的规则,而是自主从数据中提取潜在模式来构建自适应模型,从而不断改进性能并增强对未见数据的泛化能力(Hao and Ho, 2019; Vartiainen et al., 2021; Wang et al., 2009)。在环境QSAR建模中,监督学习、无监督学习和深度学习(DL)各自展示了独特的优势(Gini and Zanoli, 2020)。监督学习基于标记数据集建立化学特征和环境效应之间的明确映射,广泛用于预测污染物的环境持久性和生态风险(Muhammad and Yan, 2015)。无监督学习专注于在未标记数据中识别隐藏模式;通过聚类和降维技术,它阐明了污染物组之间的共性和主导特征,为复杂污染物的分类和风险评估提供了稳健的数据支持(Usama et al., 2019)。尽管DL通常在监督环境中实施,但它代表了超越传统ML的更近期范式转变(Razzaq and Shah, 2025; Taye, 2023)。虽然随机森林(RF)和支持向量机(SVM)等方法已使用了二十多年,并依赖于手工制作的分子描述符,但DL利用多层神经架构直接从原始结构输入(例如简化分子输入线系统(SMILES)、分子图)中学习层次化的、具有化学意识的表示(Qiao et al., 2025)。通过捕捉复杂的非线性结构-环境关系,图卷积网络(GCNs)和深度神经网络(DNNs)等模型在高维任务(如高通量毒性筛选和多媒体归趋建模)中表现出色。然而,这种转变也带来了权衡:DL需要大型标记数据集——这在环境背景下是稀缺的——并且在可解释性和领域泛化方面面临挑战,需要结合物理知识和不确定性量化的混合策略(Wang et al., 2025)。
QSAR建模正从基于线性自由能关系的经典统计框架——受到关于结构-活性关系功能形式的先验假设(例如线性)的约束——转向现代的无模型(即不对结构-活性映射的数学形式做出任何假设)的数据驱动方法。虽然传统QSAR是数据驱动的(例如,通过对理化描述符进行回归),但它依赖于来自有机化学的预定义数学形式。相比之下,基于机器学习的定量结构-活性关系(ML-QSAR)不做出这样的假设,而是直接从数据中学习复杂的非线性模式(Tropsha et al., 2024)。这不仅使其区别于经典QSAR,也区别于基于规则的定性SAR方法,后者真正是“经验驱动”的,依赖于启发式的结构类比而不是数据驱动的建模。现代ML和DL架构(如DNNs和GCNs)的系统性整合成功解决了经典QSAR框架中线性假设所带来的限制,从而能够高精度地阐明化学空间中的复杂SAR(Lin et al., 2023; Wang et al., 2024a; Zhu et al., 2024)。通过计算、算法和应用层面的重大技术创新,ML显著提高了模型性能。这一技术进步极大地增强了QSAR模型在高维和复杂化学空间中的鲁棒性、适应性和泛化能力(Sarker, 2021)。总体而言,这些方法相辅相成,共同推动了环境QSAR从单一性质预测向多过程耦合建模的范式转变。
近年来,ML和QSAR技术的深度融合为建模和分析环境领域中的复杂问题(如污染物归趋、毒性预测和风险评估)提供了创新的技术方法和研究范式。然而,现有的综述主要集中在药物开发或特定污染物上,对涵盖更广泛环境科学领域的ML-QSAR方法系统的分析关注有限。因此,进行了这项研究以填补该领域的空白。图1展示了相关研究的发表趋势、研究分布和主题焦点。
本综述采用了“理论基础—系统阐述—应用验证—未来展望”的结构化框架,全面介绍了ML-QSAR的技术系统和环境应用范式。它首先追溯了QSAR的理论基础,并阐明了其在环境研究中的技术演变。随后,它系统地详细介绍了基于模块化的ML-QSAR建模过程,包括数据预处理、特征工程、模型训练和验证等关键步骤。接着,通过三个代表性应用场景,展示了在预测环境理化归趋、评估生态和人类健康风险以及识别和优先排序新兴污染物方面的实际成就。最后,它指出了建模过程中遇到的技术瓶颈,提出了针对性的解决方案,并概述了未来方向,旨在为相关研究提供坚实的理论支持和可操作的指导。

部分摘录

ML-QSAR建模工作流程

ML-QSAR建模遵循一个系统的工作流程,如图2所示,其中每个组件的优化和设计直接影响最终模型的性能和应用结果。应强调的是,尽管ML-QSAR的整体工作流程在结构上与经典QSAR相似,但其背后的计算哲学本质上是不同的(Niazi and Mariam, 2023)。经典QSAR通常基于参数统计框架,需要

ML-QSAR在环境科学中的应用

ML-QSAR模型的出现大大扩展了传统QSAR方法的适用范围,使其成为环境风险评估的强大工具(Gao et al., 2023)。与传统的QSAR相比,ML-QSAR利用ML算法全面探索化学结构特征与多维数据(如生物活性)之间的复杂关系。这不仅提高了预测准确性和泛化能力,而且

当前状况和未来展望

环境科学中的QSAR建模正在经历深刻的范式转变——从传统的、特定任务的ML向根本重塑科学工作流程的下一代AI转变(Lin and Chou, 2022)。尽管数据稀缺、模型泛化能力和监管接受度等持续存在的挑战仍然存在,但新兴的AI技术不仅仅是渐进式的改进,而是从根本上解决这些问题的变革性推动者(Androulakis et al., 2025)。未来的

结论

本综述概述了ML-QSAR建模在环境科学中的变革性演变及其三个核心应用领域。为了解决当前的局限性,我们提出了以数据智能、模型可信度和跨学科合作为中心的针对性策略。展望未来,三个趋同趋势将重新定义环境AI:(i)智能数据基础设施:将暴露组学与LLM辅助的文献挖掘和联邦学习相结合

CRediT作者贡献声明

郑向勇:资源管理、项目协调。王志全:研究调查、资金获取。赵敏:可视化、资源管理。沈志敏:验证、监督。谭玉佳:软件开发、概念构思。陈超:初稿撰写。孙淼淼:正式分析、数据整理。刘亚伟:撰写——审阅与编辑

利益冲突声明

☑ 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家重点研发计划(编号2023YFE0101700、2023YFC3207204)和国家自然科学基金(编号22106102)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有