药物发现长期以来被认为是一个耗时、劳动密集且资本密集的过程,失败率很高1, 2。开发一种上市药物通常需要通过多轮迭代优化来合成和评估数万个候选分子3, 4。在早期阶段,对潜在候选分子的修改主要依赖于药物化学家的直觉,有时会结合生物等排替换等理论进行补充5。结构生物学和计算机辅助药物设计(CADD)的出现极大地提高了合理修饰的成功率,因为它们提供了原子级别的结构信息6, 7。
在药物化学中,片段替换是一种常见的做法,通过改变现有候选分子的结构来改善其药理学(例如效力、选择性)、物理化学(例如溶解度)和ADMET(吸收、分布、代谢、排泄、毒性)特性,从而最终使新设计的化合物具有专利性8。随后会设计片段库,为药物化学家提供修改候选分子的模板9。
基于片段的药物设计(FBDD)通过将较小的、多样化的片段组装成较大的分子,已成为发现高质量候选化合物的有效策略10。完成片段筛选并对筛选出的候选分子进行表征后,下一步的挑战是扩展这些片段,生成具有高结合亲和力的较大分子实体并证明其抑制活性10。已经开发了许多用于虚拟药物设计的FBDD工具11, 12, 13, 14,例如FragmentGPT15,它能够实现片段生长、片段连接和片段合并。然而,这些工具仍然只能生成由片段组成的分子的SMILES或图结构,而无法生成完整的复合体结构。
尽管取得了这些进展,但仍存在重大挑战。生成蛋白质-配体复合体的精确3D结构——无论是涉及小分子、肽还是RNA——通常需要繁琐的手动操作或大量的基于对接的采样。然而,传统的对接方法在生成接近天然状态的结合构象时效率较低16。
尽管现有计算方法在片段设计和蛋白质-配体/多肽复合体建模方面取得了一些成功,但仍存在显著的限制:
a) 基于SMILES的分子生成缺乏结构背景信息。
基于SMILES字符串或分子图的生成模型可以设计出化学上有效的分子,但无法直接生成相应的蛋白质-配体复合体结构。结合构象仍需通过对接来推断,这引入了额外的不确定性17, 18, 19。
b) 柔性对接方法产生的构象一致性较差。
当将一系列相关的小分子与同一蛋白质对接时,柔性对接方法常常会产生高度不同的结合构象20。这种变异性使得片段替换的比较评估变得复杂,并影响了优化研究的可靠性16。
c) 基于扩散的3D生成模型资源消耗量大。
最近,扩散模型已被用于直接预测蛋白质-配体复合体的结构,例如AlphaFold321、Protenix22、Boltz-223。虽然这些模型在结构保真度方面具有潜力,但它们通常需要大量的计算资源和较长的推理时间,限制了其在高通量药物发现管道中的应用24, 25。
综上所述,迫切需要既结构可靠又计算效率高的方法。我们提出了Fragment Database(FDB)和FragLinker,这是一个集成的、最大的片段数据库和共价优化工具。FDB使用户能够探索、修改和重组来自DrugBank和ZINC数据库(约8亿个分子)的片段。独特的是,FragLinker提供了首个基于片段级别的3D复合体生成能力,允许将选定的片段通过共价连接方式连接到小分子的指定连接原子上。这种方法生成的配体结构质量高、经过蛋白质优化,结构保真度高于传统对接方法,并且在10核CPU的情况下仅需1秒即可完成。该框架广泛适用于小分子、PROTAC以及小分子/肽杂化体的优化。FDB&FragLinker将作为开源资源在GitHub上免费提供。