作者名单:Zhe Haw Fang、Brendan Yong Chern Sim、Kavinda Kashi Juliyan Gunasinghe、Summayya Shabbir、Irine Runnie Henry Ginjom、Hwang Siaw San、Bee Theng Lau、Xavier Chee Wezen
摘要
超大规模虚拟筛选(ULVS)能够系统地评估数亿到数十亿种化合物,以发现潜在的有效候选分子。本文综述了近期基于结构、配体、药效团、片段以及混合方法的ULVS策略,这些策略通常结合了机器学习(ML)和深度学习(DL)技术。VirtualFlow、RosettaVS、Deep Docking和V-SYNTHES等平台已经在包括G蛋白偶联受体和蛋白质-蛋白质相互作用在内的多种靶点类别中发现了具有化学新颖性且经过实验验证的有效候选分子。尽管取得了这些成果,但在评分准确性、资源利用效率和泛化能力方面仍存在挑战。未来的ULVS研究将更加注重通过ML引导的优先筛选、基于片段的枚举以及考虑合成特性的库设计来实现选择性探索。
引言
慢性病和威胁生命的疾病的日益增多,给制药行业带来了加速药物研发的巨大压力。1然而,作为最早也是最关键的阶段之一,候选分子的识别工作仍受到实验通量低、筛选失败率高以及资源需求大的限制。1虚拟筛选(VS)通过实现对庞大化学空间的计算评估,将庞大的化合物库缩小到可进行合成和测试的子集,从而解决了这些问题。2在过去四十年中,VS技术取得了显著进展,从早期的几何对接算法发展到结合了基于物理的评分方法、化学信息学和机器学习(ML)的高度优化的工作流程。[3],[4]
超大规模虚拟筛选(ULVS)的历史基础
早期的VS方法为当今的超大规模筛选奠定了概念和计算基础。21世纪初,引入了渐进式对接技术——一种结合QSAR和对接方法的混合策略,通过对接结果迭代训练配体模型,能够在对接前过滤掉80-99%的化合物,同时保留出最有潜力的候选分子。5另一项研究表明,简单的、信息丰富的分子描述符也能实现类似的筛选效果。
ULVS的发展
ULVS的发展得益于按需合成(MoD)化学库的迅速扩展。Lyu等人的研究8证明了对接9900万至1.38亿种化合物并验证其对AmpC β-内酰胺酶和D4多巴胺受体的作用,这为现代ULVS确立了基准。随后Stein等人9对接了1.5亿种化合物到MT1受体,并实验验证了15种新的化学类型;Sadybekov等人的研究也进一步推动了这一领域的发展。
驱动ULVS的化学库和数据库
化学库的扩展为ULVS提供了有力支持。早期筛选工作受限于有限的骨架多样性和有限的化合物数量,而现代的MoD库能够可靠地生成数十亿种可合成且具有多样性的化合物。[13],[14]这种化学空间的扩张不仅提高了候选分子的发现率,还增强了骨架的新颖性和化学类型的多样性。
综述范围
本文分析了2019年至2025年间ULVS的研究,重点关注以下方面:(i) 筛选规模;(ii) 使用的化学库;(iii) 研究类型(前瞻性或回顾性);(iv) 靶标蛋白;(v) ULVS策略;(vi) 使用的工具和软件;(vii) 是否包含AI或ML组件;(viii) 前瞻性候选分子的发现结果;(ix) 发现率。旨在总结方法学趋势,识别实际存在的瓶颈,并提供相关见解。
方法论
本文采用基础综述的方法,系统地总结了ULVS领域的方法学进展、计算创新和实验成果。在PubMed、Web of Science和Scopus数据库中进行了结构化的搜索,搜索词包括“超大规模虚拟筛选”、“大规模筛选”、“基于结构的虚拟筛选”、“基于配体的虚拟筛选”、“基于片段的虚拟筛选”、“基于形状的筛选”、“药效团”、“评分函数”等组合。
基于结构的虚拟筛选(SBVS)
SBVS通过将化合物对接到3D蛋白质结构中,并使用评分函数评估结合模式来识别潜在的有效候选分子(图1)。12在超大规模应用中,SBVS是目前唯一能够明确模拟数十亿种可合成化合物之间蛋白质-配体相互作用的框架;但其有效性取决于蛋白质模型质量、计算规模、构象搜索算法、评分精度等因素。
基于配体的虚拟筛选(LBVS)
LBVS通过利用化合物与已知活性分子的相似性来识别候选分子,因为结构相似性通常与生物活性相关。68传统的LBVS方法依赖于2D分子表示方法,如MACCS键和Morgan指纹图谱,这些方法用于快速进行相似性搜索。69尽管这些方法计算效率高,但大规模测试表明基于指纹图的相似性评估存在局限性。
基于药效团的虚拟筛选
基于药效团的虚拟筛选方法介于SBVS和LBVS之间。根据药效团特征的来源,这些方法可以分为:(i) 基于结构的药效团(特征来源于蛋白质-配体复合物、口袋相互作用区域或蛋白质衍生的功能热点);或(ii) 基于配体的药效团(特征从已知活性分子的比对数据中推断得出)。在ULVS工作中,药效团模型被频繁使用。
混合方法
混合虚拟筛选方法整合了SBVS、LBVS、基于片段的方法以及ML和/或DL技术,以克服ULVS在计算和实验上的局限性。这些方法通过引入中间决策层(如相似性扩展、生成建模、药效团约束或片段锚定),将计算重点放在化学和结构上相关的区域。
主要的ULVS平台和成果
ULVS平台通过探索化学空间实现了有效候选分子的识别。这些平台的发展体现了从暴力对接向选择性采样策略、可扩展的云工作流程以及基于ML的优先筛选的转变。值得注意的是,ULVS的概念基础早在2020年代MoD库广泛采用之前就已经形成。下文将介绍主要平台,包括VirtualFlow 2.0、RosettaVS和Deep Docking等。
V-SYNTHES
V-SYNTHES采用了一种分层的合成子枚举筛选策略
45。它不是对接所有化合物,而是对接一个称为“最小枚举库”(MEL)的代表性小规模合成子组合
45。只有得分最高的片段组合才会通过合成子替换进行迭代扩展,从而生成完整的化合物。
随着ULVS在药物发现中的广泛应用,必须系统地评估其局限性,以确保其稳健性、可行性和可重复性。尽管近期研究证明了其处理大规模化合物的能力,但仍存在一些持续存在的问题,如评分函数的不准确性、资源消耗大、化学库的偏倚以及实验验证的瓶颈。