计算机辅助片段药物设计的前景与挑战——人工智能驱动的药物发现新范式

时间:2026年2月4日
来源:Expert Opinion on Drug Discovery

编辑推荐:

本综述系统阐述了计算机辅助片段药物设计(FBDD)的最新进展,重点分析了人工智能(AI)与机器学习(ML)技术如何通过生成模型、强化学习(RL)和变分自编码器(VAEs)等工具,在片段生长(Grow)、合并(Merge)和连接(Link)的GML策略中实现化合物自动化设计、相互作用预测和化学多样性拓展,为靶向激酶、GPCRs等难成药靶点及PROTACs等新模态提供了创新解决方案。

广告
   X   

片段药物发现(FBDD)是一种利用分子"片段"开发新型候选药物的技术。与传统方法相比,FBDD具有更高的命中率(10-30%),远高于高通量筛选的0.01-0.1%,并且允许更广泛地探索化学空间。片段通常遵循"三规则"(Ro3)——分子量低于300 Da,logP小于3,旋转键、氢键供体和受体不超过三个——这比"五规则"(Ro5)更为严格,有助于确保类药性。这些特征便于与靶蛋白结合,能够合成多样化化合物,并简化先导化合物优化。FBDD内的主要策略包括片段生长、合并和连接。
FBDD传统上通过生长、合并和连接(GML)技术取得进展,并已广泛用于弱结合片段命中的优化。片段生长涉及通过逐渐添加片段来扩大化合物结构,从一个初始片段开始。这些初始片段作为后续带有互补官能团的片段的连接点,引导结构朝向目标结合位点。片段合并将两个或多个具有重叠结构的片段合并成一个化合物,当它们的结合位点在同一个子口袋内靠近时尤其有效。片段连接通过化学"连接子"将不同结合位点的多个片段连接起来,这些连接子必须精心设计以保持片段的原始性质。与小分子药物类似,使用GML方法将小片段构建成类药化合物,FBDD也促进了蛋白降解靶向嵌合体(PROTACs)的设计,用于降解特定蛋白质,例如BRAFv600E-PROTAC (CST905)、CDK9-PROTAC (15e)、BCL-XL-PROTAC (DT2216) 和 AKT-PROTAC (MS143),这些已成功开发并处于不同的临床研究阶段。在FBDD中,命中鉴定严重依赖于灵敏检测和使用多种独立方法进行的正交验证。该过程的关键挑战是检测弱结合片段,这些片段可能表现出从微摩尔到毫摩尔的亲和力。某些条件可能导致筛选过程中的假阳性,这是由于结合模式的非特异性。FBDD的另一个挑战是需要多种方法来验证结果,这可能包括计算机辅助(in silico)和生物物理技术的组合。
典型的FBDD项目中的常见步骤和阶段包括:一般工作流程始于精心选择片段库,然后进行初步筛选以识别初始结合物。这些命中随后使用正交方法进行二次筛选以消除假阳性。一旦确认,命中通过配体效率(LE)进行评估,LE值≥0.3被认为有希望优化成类药分子。随后采用药物化学策略,如片段生长、连接或合并,以增强效力和选择性。文章还强调了预筛选方法。虚拟筛选(VS)可以减少待测试化合物的数量,采用基于配体的药效团模型或基于结构的对接。最近,机器学习和深度学习已被整合到VS流程中,以处理大型数据集并可能完全在计算机中设计分子。另一个重要的预筛选步骤是排除泛测定干扰化合物(PAINS),这些化合物由于非特异性或共价结合、氧化还原活性或自发荧光而经常导致假阳性。唯一的例外是当有意使用亲电子片段来靶向亲核残基。
在此过程中,片段库起着关键作用,无论实验是虚拟的还是基于实验室的。理想情况下,片段库应能够在Ro3范围内探索最大的化学空间。这些库应确保片段可溶、稳定、可合成扩展,并且没有有问题的化学型或可能干扰测定的分子。这些库的收集应以2D和3D格式提供,并且预计它们包含有助于设置虚拟实验的元数据。虚拟和片段库应在片段库的整个生命周期中保持严格的质量控制。已有几个片段库用于FBDD。其中一个这样的库是Astex片段库。它是一个高度 curated、符合Ro3的数据集,提供高质量的片段数据。然而,该库主要用于内部药物发现计划。FragLite 和 XChem 基于钻石光源(Diamond Light Source),为学术和工业用户提供针对其选择靶点进行筛选的设施。
一些最广泛使用且关键的FBDD生物物理方法是SPR、TSA、MST、X射线晶体学和NMR。表面等离子共振(SPR)灵敏度高、无需标记,能够测量结合亲和力、动力学(kon/koff)和特异性。这些方法对弱结合物特别有效,并能够进行解离速率筛选以评估药物停留时间。下一个重要的方法是热位移测定(TSA),它简单、高通量,并且通过熔化温度的变化检测蛋白质稳定或不稳定非常有价值。这种方法的主要缺点是其易产生假阳性,并且需要其他方法交叉确认。第三个相对较新的方法是微量热泳动(MST),它检测跨温度梯度的荧光变化。它使用非常少的蛋白质,并且在溶液中操作无需固定,这是该方法的一个关键特征;它对弱结合物也有效,可用作快速筛选方法。其余两种广泛使用或常规的方法是X射线晶体学和NMR研究。X射线晶体学提供片段结合位点的原子级细节,能够实现合理的优化策略,如片段生长或连接。尽管这种方法有优势,但它也带来了一些重大挑战,包括蛋白质结晶和需要大量蛋白质。然而,像XChem(钻石光源)和FragMAX(BioMax光束线)这样的平台已经简化了高通量晶体学筛选。FBDD中的开创性方法是NMR。这些方法在检测配体-蛋白质相互作用和溶液中的结构洞察方面非常强大且广泛应用。它对弱结合物敏感,但需要昂贵的仪器和专家分析。
Astex一直处于片段药物发现(FBDD)项目的前沿,其不断扩大的产品组合包括40多种片段衍生化合物处于临床试验阶段,并辅以多项全球批准。Astex的贡献在乳腺癌、尿路上皮癌和白血病癌症的治疗中显而易见。有几个项目,包括维莫非尼(Vemurafenib,BRAF V600E抑制剂),是首批获批用于黑色素瘤的片段衍生药物。这一里程碑是通过识别一个7-氮杂吲哚铰链结合片段实现的。晶体学分析解决了结合模式的模糊性,而药物化学优化有助于实现高效力和配体效率,促进了快速的临床开发。培西达替尼(Pexidartinib)源自相同的7-氮杂吲哚核心,经过迭代生长和支架修饰以平衡效力与溶解度和可结晶性,最终获批用于治疗巨细胞瘤。 Venetoclax是凋亡调节方面的一项重大进展,通过连接经SAR-by-NMR在BCL-XL上鉴定的联苯核心片段而开发,随后为BCL-2重新设计以实现深度的临床缓解。厄达替尼(Erdafitinib)是通过虚拟筛选FGFR片段命中发现的,晶体结构指导了效力和选择性的改进,特别是针对VEGFR2,导致其获批用于尿路上皮癌。最近,索托拉西布(Sotorasib,KRAS G12C抑制剂)是通过将片段共价连接到突变半胱氨酸上而识别的。优化周期解决了隐秘口袋动力学和口服药代动力学挑战,产生了第一个获批的KRAS抑制剂,从而确认了共价FBDD作为针对长期被认为是"不可成药"靶点的可行方法。
除了肿瘤学,FBDD在各种治疗领域也取得了显著成功,经常为传统高通量筛选方法可能忽略的挑战性靶点识别高效结合物。在传染病领域,片段产生了细菌酶(如DNA旋转酶和MurA)的抑制剂,以及靶向HIV整合酶和流感内切核酸酶的抗病毒先导化合物,在结核病药物发现中具有广阔前景。在中枢神经系统疾病中,基于片段的研发产生了用于阿尔茨海默病的BACE1调节剂,并识别了与精神疾病相关的GPCRs和离子通道的命中。心血管和代谢研究受益于片段衍生的激酶抑制剂,如p38 MAPK和AMPK,以及针对脂质调节剂如PCSK9的努力。在表观遗传学方面,在开发靶向溴结构域和组蛋白甲基转移酶的片段基抑制剂方面取得了进展,为自身免疫和炎症性疾病创造了新的治疗机会。最后,免疫学和炎症方面的项目利用FBDD识别IDO1和JAK激酶的抑制剂,拓宽了免疫调节策略。
尽管有许多成功案例,FBDD仍面临若干挑战。选择高质量的片段库很复杂,因为它必须平衡多样性、化学空间覆盖度、物理化学性质和合成可行性。筛选方法需要灵敏,因为片段通常结合较弱;像NMR这样的技术对筛选和确认命中特别有效。配体观察和蛋白质观察NMR能够实现高通量筛选,并在各种靶点上获得合理的命中率。选择正确的命中进行生长至关重要;配体效率(LE)有助于确保相互作用是特异性的。通过NMR、X射线和冷冻电镜(Cryo-EM)理解结合模式对于在分子水平确认靶点参与至关重要。片段库规模的增大增加了筛选需求,包含数百万个片段的库需要大量资源。计算方法,如虚拟筛选,可以在实验室测试之前优先排序命中,从而促进虚拟和实验发现的迭代循环。最后,片段生长和连接子设计需要药物化学专业知识,这受到大量命中和复杂相互作用的挑战。融入人工智能可以支持数据分析、相互作用预测和连接自动化,从而实现更高效的开发。
人工智能对FBDD的速度、新颖性和准确性产生了重大影响。在过去5年中,人工智能和机器学习加速了FBDD的每一步:通过高级片段化进行片段选择,用于生长/合并的 pocket-aware 生成设计,以及用于连接的多目标连接子优化。在平台层面,模块化合成子虚拟筛选(例如V-SYNTHES)和千兆级化学空间使得可访问的化学多样性成倍增加。同时,深度生成和强化学习模型开始通过从数据中直接学习构效关系和3D几何来压缩片段到先导化合物的周期。传统上,GML是FBDD的标准方法;然而,最近的技术进步扩大了片段的作用,并引入了用于其生成和调节的新工具,以及用于片段选择的人工智能/机器学习方法。片段化过程得到了显著改进,最近的方法如基于规则的(RECAP/BRICS)、环感知的(MacFrag)、注意力驱动的(DigFrag)和序列标记化(SPE/BPE)产生了更丰富、适合机器学习(ML-ready)的片段词汇表。片段生长和合并阶段也看到了显著的改进和自动化,其中变分自编码器(VAEs)的使用发挥了重要作用。一些可用的工具包括STRIFE、MRGVAE、SE(3)-等变网络(FRAME)、去噪扩散(AutoFragDiff)和语言模型标记化(Frag2Seq),以生成具有3D保真度的 pocket-aware 扩展。强化学习与VAEs一起加速了片段连接过程,其中工具如DeLinker/3DLinker(VAEs)、DRLinker(RL+Transformers)、ShapeLinker(形状/点云对齐)和LinkInvent、AIMLinker(属性感知生成连接子)用于PROTACs和小分子。
这些方法具有多个方面,例如化学空间探索和模块化筛选。按需库(例如Enamine REAL数据库)和模块化合成子方法能够以数十亿分子规模进行筛选,促进SAR-by-catalog和快速类似物设计,无需定制合成。命中率和亲和力分布随着规模扩大而改善,模块化片段筛选相对于简单的对接实验,计算成本降低了约100-1000倍,后者计算量巨大且消耗资源。然而,与大多数方法一样,需要在算法伪影、分数共识和手动整理的需求之间进行权衡,并且需要更计算密集的后处理(FEP/QM/MM)来进行效力排序,这有助于建立信心。其他方法,如混合物理-机器学习工作流,允许整合对接和柔性对接、机器学习评分函数、自由能微扰(FEP)和重新评分,从而增加真阳性并增强效力预测,特别是对于浅口袋和隐秘位点,在这些地方纯计算机研究常常失败。最近的CACHE倡议和D3R基准测试表明混合方法优于单模态流程。蛋白质结构建模方法,如 Alphafold,对没有晶体结构的蛋白质有帮助。它们还支持混合对接富集,这通常需要辅因子或环区修饰(例如AlphaFill)和针对靶点类别的验证,然后才能进入片段工作流程。因此,这些工具也支持FBDD方法,这些方法过去由于需要对蛋白质和蛋白质-核酸复合物缺失的晶体学区域进行繁琐的建模过程而难以实施。
将人工智能(AI)融入片段药物发现(FBDD)解决了许多剩余的挑战。它提供了实用的解决方案,并提高了将人工智能和机器学习嵌入GML工作流程的期望。人工智能通过利用蛋白质和分子数据的洞察,自动化化合物的设计和优化。深度学习(DL)模型有效识别蛋白质和片段之间的结构相互作用,从而能够准确预测片段构象和结合亲和力。生成模型通过创建新化合物和改进关键指标(如定量估计类药性(QED)和合成可及性(SA))来增强化学探索,从而提高分子多样性。强化学习(RL)通过平衡关键片段属性(如结合亲和力)进一步优化化合物设计,使其在多目标优化中特别有用。总的来说,人工智能节省了时间和资源,整合了结构洞察,管理多个目标,并支持新化合物的开发。人工智能驱动的FBDD加速了设计过程,并拓宽了针对激酶、GPCRs和蛋白酶等靶点的化学多样性。模块化筛选和生成化学通过迭代片段生长、连接和基于结构的优化,促进了临床和已批准的片段基药物(例如维莫非尼、培西达替尼、Venetoclax、厄达替尼、索托拉西布、阿西米尼、Capivasertib和Capmatinib)的开发。
生成模型可以促进从头片段组装,其中人工智能提出完全新的支架,针对结合口袋、安全性和新颖性进行优化。可用的片段库可以成为训练生成模型的宝贵资源。这些库包含关于溶解度、物理化学性质以及有时合成路线的元数据。这些信息支持更好地训练基于人工智能的模型。来自Astex、Assinex、Vernalis和ChemBL等提供商的数据集可能是训练生成式人工智能模型以产生从头片段的良好起点,这些片段可应用于不可成药靶点、设计PROTACs或分子胶。这可以显著拓宽化学多样性和知识产权空间,减少对现有库的依赖。FBDD革命预计将跨越各个阶段和步骤。Pocket-aware生成设计将直接根据蛋白质口袋嵌入生成片段,确保结构相关性。工作流程,如集成的千兆级流程,可以将VAEs和RL与庞大的虚拟库相结合,实现SAR-by-catalog和快速类似物生成。强化学习方法可以推动片段生成和命中识别技术的开发和改进,包括对接、FEP和实验反馈。人工智能-机器学习方法还将在设计新分子时改进安全参数,例如,通过融入片段的ADME和毒性属性,同时保持新颖性,从而减少药物开发后期阶段的配体损耗。如前所述,我们预计FBDD将得到更广泛的应用,特别是在新模态中,如PROTACs、分子胶、ADDCs和肽分子。FBDD可以为核酸基调节剂做出更大贡献,其中DNA和RNA结合剂的进展由于当前和预期的疾病(如抗病毒和癌症治疗)需求而得到更多探索。当前的技术水平和前景是充满希望的,FBDD方法迅速发展,有助于靶向不可成药靶点,缩短片段到命中到先导化合物的时间线,并确保药物安全仍然是优先事项。然而,即使有这些有希望的发展,最终验证仍然需要通过既定的正交方法进行实验测试。好的一面是FBDD的时间线缩短和准确性提高。

生物通微信公众号
微信
新浪微博


生物通 版权所有