定量结构-活性关系(QSAR)是一种化学信息学方法,它根据分子的化学结构预测其生物活性或其他性质,遵循结构决定性质的基本原则(Dearden, 2017; Nantasenamat et al., 2009; Polishchuk, 2017)。QSAR的理论基础可以追溯到20世纪30年代和40年代,当时Hammett和Taft研究了取代基的电子效应,并提出了线性自由能关系理论,为后续的QSAR发展提供了基础框架(Hansch et al., 2002)。20世纪60年代,Corwin Hansch引入了具有里程碑意义的Hansch方程,标志着经典QSAR模型的出现(Hansch et al., 1962)。早期的QSAR研究主要使用小型、同系化合物数据集,其中分子描述符来自经验性的理化参数,模型假设结构和活性之间存在线性相关性(Scior et al., 2009)。这些模型通常使用线性回归或基本统计技术构建,重点评估局部结构修饰对生物活性的影响,而不是预测完全新颖化合物的活性。这种建模方法主要基于相似性-性质原则和结构-活性关系(SAR)的连续性,即结构相似的分子表现出相似的性质,而轻微的结构改变会导致活性的渐进变化。这些假设为在线性模型中的应用提供了理论基础,使研究人员能够基于一系列化合物中的结构-活性模式系统地指导结构修饰和合理设计(Muratov et al., 2020; Wassermann et al., 2010)。
随着化学信息学数据的指数级增长和化学空间的复杂性增加,经典QSAR框架正面临重大挑战(Cherkasov et al., 2014)。化学多样性的迅速扩展大大限制了相似性-性质原则的适用范围(AD),而结构差异的日益异质性在SAR中引入了明显的不连续性,表现为频繁出现的活性悬崖(Muratov et al., 2020; Stumpfe and Bajorath, 2012; Stumpfe et al., 2020)。此外,传统的描述符不足以充分表征复杂的化学空间,也无法捕捉多维结构属性与多机制毒性终点之间的非线性相关性(Gao et al., 2022)。当代研究范式已转向“预测优先”的方向;然而,经典QSAR方法在可解释性和预测准确性之间存在固有的权衡(Shoombuatong et al., 2017)。这些限制导致在大规模数据集上的性能不佳、外推能力受限、对活性悬崖的敏感性增强以及跨领域预测能力的下降。因此,这促进了机器学习(ML)方法在QSAR领域的采用和进步。
机器学习(ML)与传统编程的根本区别在于其本质上是数据驱动的。ML不是遵循预定义的规则,而是自主从数据中提取潜在模式来构建自适应模型,从而不断改进性能并增强对未见数据的泛化能力(Hao and Ho, 2019; Vartiainen et al., 2021; Wang et al., 2009)。在环境QSAR建模中,监督学习、无监督学习和深度学习(DL)各自展示了独特的优势(Gini and Zanoli, 2020)。监督学习基于标记数据集建立化学特征和环境效应之间的明确映射,广泛用于预测污染物的环境持久性和生态风险(Muhammad and Yan, 2015)。无监督学习专注于在未标记数据中识别隐藏模式;通过聚类和降维技术,它阐明了污染物组之间的共性和主导特征,为复杂污染物的分类和风险评估提供了稳健的数据支持(Usama et al., 2019)。尽管DL通常在监督环境中实施,但它代表了超越传统ML的更近期范式转变(Razzaq and Shah, 2025; Taye, 2023)。虽然随机森林(RF)和支持向量机(SVM)等方法已使用了二十多年,并依赖于手工制作的分子描述符,但DL利用多层神经架构直接从原始结构输入(例如简化分子输入线系统(SMILES)、分子图)中学习层次化的、具有化学意识的表示(Qiao et al., 2025)。通过捕捉复杂的非线性结构-环境关系,图卷积网络(GCNs)和深度神经网络(DNNs)等模型在高维任务(如高通量毒性筛选和多媒体归趋建模)中表现出色。然而,这种转变也带来了权衡:DL需要大型标记数据集——这在环境背景下是稀缺的——并且在可解释性和领域泛化方面面临挑战,需要结合物理知识和不确定性量化的混合策略(Wang et al., 2025)。
QSAR建模正从基于线性自由能关系的经典统计框架——受到关于结构-活性关系功能形式的先验假设(例如线性)的约束——转向现代的无模型(即不对结构-活性映射的数学形式做出任何假设)的数据驱动方法。虽然传统QSAR是数据驱动的(例如,通过对理化描述符进行回归),但它依赖于来自有机化学的预定义数学形式。相比之下,基于机器学习的定量结构-活性关系(ML-QSAR)不做出这样的假设,而是直接从数据中学习复杂的非线性模式(Tropsha et al., 2024)。这不仅使其区别于经典QSAR,也区别于基于规则的定性SAR方法,后者真正是“经验驱动”的,依赖于启发式的结构类比而不是数据驱动的建模。现代ML和DL架构(如DNNs和GCNs)的系统性整合成功解决了经典QSAR框架中线性假设所带来的限制,从而能够高精度地阐明化学空间中的复杂SAR(Lin et al., 2023; Wang et al., 2024a; Zhu et al., 2024)。通过计算、算法和应用层面的重大技术创新,ML显著提高了模型性能。这一技术进步极大地增强了QSAR模型在高维和复杂化学空间中的鲁棒性、适应性和泛化能力(Sarker, 2021)。总体而言,这些方法相辅相成,共同推动了环境QSAR从单一性质预测向多过程耦合建模的范式转变。
近年来,ML和QSAR技术的深度融合为建模和分析环境领域中的复杂问题(如污染物归趋、毒性预测和风险评估)提供了创新的技术方法和研究范式。然而,现有的综述主要集中在药物开发或特定污染物上,对涵盖更广泛环境科学领域的ML-QSAR方法系统的分析关注有限。因此,进行了这项研究以填补该领域的空白。图1展示了相关研究的发表趋势、研究分布和主题焦点。
本综述采用了“理论基础—系统阐述—应用验证—未来展望”的结构化框架,全面介绍了ML-QSAR的技术系统和环境应用范式。它首先追溯了QSAR的理论基础,并阐明了其在环境研究中的技术演变。随后,它系统地详细介绍了基于模块化的ML-QSAR建模过程,包括数据预处理、特征工程、模型训练和验证等关键步骤。接着,通过三个代表性应用场景,展示了在预测环境理化归趋、评估生态和人类健康风险以及识别和优先排序新兴污染物方面的实际成就。最后,它指出了建模过程中遇到的技术瓶颈,提出了针对性的解决方案,并概述了未来方向,旨在为相关研究提供坚实的理论支持和可操作的指导。