综述:基于物理模拟与人工智能破译隐性口袋

时间:2026年1月28日
来源:Current Opinion in Structural Biology

编辑推荐:

本综述系统梳理了计算生物学在揭示蛋白质隐性口袋(cryptic pockets)方面的最新进展。文章重点介绍了分子动力学(MD)模拟、人工智能(AI)模型以及两者结合的混合策略如何增强对这类瞬时结合位点的发现与功能阐释,为靶向传统“不可成药”蛋白提供了新机遇。

广告
   X   

探索隐性口袋的分子模拟
分子动力学(MD)模拟已成为研究蛋白质中隐性口袋的有力技术。早期研究通常将分子对接直接应用于MD模拟生成的、包含瞬时口袋的结构快照,以评估配体结合潜力和口袋特性。然而,即使是长达数百微秒的长时间尺度MD模拟,也可能难以捕捉某些系统中由次级结构运动或变化引起的、发生在微秒至分钟级别的瞬时高能口袋状态。
为克服这些限制并加速相关构象空间的探索,增强采样技术应运而生。其中,特定性状波动放大(FAST)算法通过迭代运行模拟、构建已探索空间的图谱,并利用该图谱决定在何处收集更多数据,能有效引导模拟朝着展现特定结构特征(如残基间距离增加或口袋体积增大)的构象发展。
马尔可夫状态模型(MSMs)常用于绘制MD采样的构象景观图。MSMs将该景观离散化为有限的状态集合,从中可以提取具有明确隐性口袋的代表性构象。配体结合则可以使用诸如玻尔兹曼对接(Boltzmann docking)和PopShift等先进方法进行评估,这些方法都考虑了不同状态的概率以及配体与每个状态的结合强度。这个基于MSM的框架已被证明能有效模拟靶向替代位点(如正构位点)的已知配体的结合,并能针对隐性口袋对化合物库进行虚拟筛选。值得注意的是,它已成功应用于为TEM-1 β-内酰胺酶和5-HT3A受体等靶点发现配体。
一个特别引人注目的例子是扎伊尔型埃博拉病毒VP35(VP35)干扰素抑制域中隐性口袋的发现。研究结合了FAST和在Folding@home分布式计算平台上进行的大规模模拟来探索蛋白质的构象空间。为了在这个庞大的结构集合中识别隐性口袋,研究人员采用了暴露子(exposon)分析。暴露子是指那些溶剂可及性发生高度相关变化的残基基团,通常与隐性位点的形成有关。该分析揭示了一个隐性口袋,其形成与一个小螺旋(螺旋5)从一个4螺旋束中分离相关。研究发现,这个口袋与双链RNA(dsRNA)平末端结合界面存在变构耦合。相关残基对动力学状态(CARDS)算法通过量化残基对之间二面角动力学的耦合,进一步验证了这种变构连接。为了获得机理上的见解,研究人员应用了DiffNets机器学习算法,这是一种旨在识别集合间关键结构差异的监督自编码器架构。DiffNets揭示了隐性口袋的开启/关闭与一个关键RNA结合残基F239的结构偏好之间存在强耦合。后续实验证实了该口袋的存在及其对RNA结合的变构控制。这项研究是成功靶向一个涉及蛋白质-核酸相互作用的困难非酶蛋白的罕见范例,展示了利用隐性口袋调控此类挑战性靶点的治疗潜力。
元动力学(Metadynamics)是另一种研究隐性口袋的有前景的方法。它特别擅长沿预定义的构象坐标(即集体变量,CVs)增强采样,从而促进访问其他情况下罕见的构象状态。例如,Benabderrahmane等人通过在对初始100纳秒无偏MD模拟进行主成分分析(PCA)捕获的基本动力学空间上执行良构元动力学,系统性地识别了抗凋亡蛋白Mcl-1中的隐性口袋。
最近,Vithani等人应用了一种先进的加权系综(WE)MD模拟变体来研究野生型KRAS及其G12D突变体中的隐性口袋。在他们的方法中,使用正态模式分析(NMA)推导出固有的正态模式,然后将其作为进度坐标来引导模拟朝着相关的构象转变方向发展。值得注意的是,他们的研究还结合了混合溶剂MD(MSMD)模拟,即引入小的共溶剂分子作为探针来识别疏水性或瞬时可及的腔洞。MSMD不仅能够检测隐性位点,还能通过共溶剂占据分析对口袋特性进行定量表征。其日益流行的原因在于它能够模拟配体诱导契合效应,并揭示在纯水模拟中可能需要更长时间才能打开的动态结合热点。尽管有其优势,但MSMD本身存在局限性,包括难以实现充分采样、蛋白质失稳的风险以及需要仔细选择探针分子。为了克服这些问题并利用MSMD的优势,它正越来越多地与其他模拟技术结合。在这项研究中,Vithani等人将MSMD与使用氙气作为化学探针的WE模拟相结合,从而能够同时捕获诱导契合动力学并量化共溶剂的占据和停留时间。利用超过400微秒的模拟数据,作者对KRAS及其G12D突变体中的隐性口袋进行了全面分析,包括探针占据映射、暴露子分析以及称为动态探针结合分析的改良版暴露子分析,该分析计算氙结合的相关变化。这些方法共同提供了关于口袋灵活性的机理见解,并揭示了KRAS中相对于隐性口袋的关键变构网络。
另一种有前景的方法是水界面缩放哈密顿量采样(SWISH),这是由Oleinikovas等人设计的一种基于哈密顿量副本交换(HREX)的技术。结合小有机探针,SWISH通过逐步缩放溶剂分子与蛋白质非极性原子之间的非键相互作用,有效地将水性质转向更类似配体的行为,从而促进隐性位点的打开。这种方法已被证明能够探索具有高活化能垒的构象变化,并成功诱导了TEM-1 β-内酰胺酶、白细胞介素-2和Polo样激酶-1等靶点中已知隐性结合位点的形成。与传统的长时间尺度MD或平行回火模拟相比,SWISH在揭示隐性构象方面提供了更高的准确性和采样效率。在此基础上,同一课题组最近开发了SWISH-X,这是SWISH的增强版本,它结合了OPES多温采样,可在不同系统中实现更快、更准确的隐性口袋探索。
虽然这些方法在隐性口袋检测方面显示出强大潜力,但将其应用于药物发现中未经探索的蛋白质仍需要大量的下游分析。这包括对口袋特性进行定量表征,例如评估口袋的可成药性和功能相关性,以及使用诸如硫醇标记或基于片段的筛选等方法进行实验验证。
利用AI驱动模型识别隐性口袋
随着人工智能的快速发展,新一代AI驱动模型已经出现,以应对隐性口袋检测的挑战。这些模型可以预测单个残基参与隐性口袋的可能性,或者比传统MD模拟更高效地生成开放口袋的构象。
像AlphaFold这样的结构预测工具在模拟蛋白质结构方面展现了卓越的准确性。通过对输入的多序列比对进行随机采样,AlphaFold可以产生可能呈现开放或部分开放隐性口袋的结构集合。然而,尽管取得了成功,AlphaFold主要是在蛋白质数据库(PDB)和大型序列数据库的实验测定结构上训练的,并非明确设计用于采样替代构象,这限制了其直接预测隐性口袋的能力。例如,Meller等人的研究表明,AlphaFold仅在10个蛋白质中的6个里重现了隐性口袋。预测的结构集合也缺乏关于不同构象相对权重的信息,因此不清楚口袋打开事件的可能性有多大。此外,一些AlphaFold预测的结构包含预测置信度较低的高度柔性域,进一步限制了其适用性。尽管如此,这些预测结构可以作为使用无偏或有偏MD模拟进行进一步探索的宝贵起点。在Meller等人的研究中,随后的MD模拟结合MSM分析提供了AlphaFold单独无法获得的关于口袋动力学的更深入见解。从这些预测结构开始模拟也比从晶体结构开始加速了口袋的发现。随着最近支持蛋白质和小分子联合结构预测的AlphaFold3的发布,其在识别开放口袋构象和配体诱导的结构变化方面具有改进的潜力。
与此同时,基于序列的AI模型最近已成为蛋白质结构和功能预测的强大工具,包括在无需结构输入的情况下在残基水平评估隐性口袋倾向性。Škrhák等人利用三种不同的蛋白质语言模型(ProtT5-XL-U50、ESM-1b和ProtBert-BFD)生成残基水平的嵌入向量,然后将其输入神经网络进行预测。这些嵌入向量从蛋白质序列中捕获了丰富的上下文信息,使得能够直接从序列数据中准确预测隐性位点。模型性能使用CryptoSite数据集进行评估,该数据集包含93个经过验证的隐性口袋的apo-holo蛋白质结构对。值得注意的是,基于ProtT5-XL-U50和ESM-1b嵌入向量的预测在测试集上的曲线下面积(AUC)方面超过了ProtBert-BFD,并且略微优于基于结构的模型CryptoSite。为了支持隐性口袋预测因子的开发和评估,同一课题组引入了CryptoBench,这是一个更大、更全面的基准集,包含1107个使用口袋均方根偏差(RMSD)作为选择标准筛选的apo-holo蛋白质对。使用这个数据集,他们利用ESM2-3B模型的嵌入向量训练了一个新的神经网络模型。尽管该模型在测试集上取得了比基于结构的预测因子PocketMiner更高的AUC分数,但需要注意的是,这两个模型是在不同的数据集上训练的。
进一步推动该领域发展的是,Martinez等人构建了迄今为止已知最大的隐性位点数据库,包含来自PDB的超过550万个apo和holo蛋白质对的结构比对。使用一个包含71个隐性和128个非隐性例子的精选数据集,他们训练了一个监督机器学习模型来检测配体诱导的构象变化并对隐性口袋形成进行评分,最终识别出大约20万个包含潜在隐性位点的apo-holo组合。基于这个数据库,作者随后微调了一个蛋白质语言模型(Prot-T5-XL-UniRef50),以直接从序列预测隐性口袋的位置。尽管该模型在查询序列与CryptoBank条目序列同一性超过20%时表现出很高的预测性能,但其对新序列的泛化能力仍然有限。此外,对配体分子量和相对溶剂可及表面积(RSA)的分析表明,许多隐性口袋倾向于容纳更大的配体(分子量 >300 Da),并且位于更深、溶剂暴露更少的区域(RSA <0.3),而不是在表面(RSA >0.3)。基于这些见解,他们筛选了一个包含约6000个聚类配体的精炼片段库,专门用于筛选隐性结合口袋。
总之,这些AI驱动的方法通过实现快速筛选和优先排序潜在的隐性位点,补充了基于物理的模拟,对于结构信息有限或实验数据稀疏的靶点尤其有价值。
整合AI与模拟数据预测隐性口袋
除了基于序列的模型,基于结构的机器学习模型是另一类强大的隐性口袋预测工具,它们利用从MD模拟中采样的蛋白质结构集合。一个著名的早期例子是CryptoSite,它需要输入蛋白质结构,并经过训练来识别那些从不利于配体结合的方向转变为能够容纳配体的方向的残基。其训练基于一组来自PDB的84个已确认的隐性口袋。虽然CryptoSite在分类形成口袋的残基方面取得了良好的准确性,但其应用计算成本高昂——它需要动态生成模拟数据作为输入特征之一,每个输入结构大约需要一天时间。
一个更新且更高效的替代方案是PocketMiner,它预测给定蛋白质结构中的每个残基在从该结构开始的短MD模拟期间是否会参与隐性口袋的形成。预测通常在几秒钟内生成。PocketMiner建立在基于几何向量感知机(GVP)的图神经网络上,旨在通过模拟从多样化的蛋白质构象中学习残基水平的表示。对于每个输入结构,模型提取结构特征(如二面角和残基间方向/距离),通过GVP层处理它们,并通过消息传递层更新残基嵌入向量。最终的残基水平预测通过S型激活函数获得。该模型在一个包含38个蛋白质、39个经实验验证的隐性口袋的精选数据集上训练。对这些蛋白质进行了大量模拟,捕获了数千个隐性口袋打开事件。从这些模拟中,通过测量每个残基附近LIGSITE口袋体积的变化和fpocket可成药性得分的最大值,生成了残基水平的训练标签。最终的数据集提供了足够的结构多样性和可靠的动态标签,以支持有效的模型训练。与CryptoSite相比,PocketMiner实现了略高的准确性(以受试者工作特征曲线下面积ROC-AUC衡量:0.87 vs. 0.85),同时预测速度提高了1000倍以上。
另一个有前景的模型是BioEmu,它通过独特的训练范式整合了超过200毫秒的模拟数据、静态结构和实验蛋白质稳定性。值得注意的是,其大部分训练数据来自大规模分布式计算资源Folding@home。BioEmu通过生成结构集合来预测多样的功能运动,包括隐性口袋的形成。在一个包含34个经实验验证的隐性口袋案例的基准测试中,该模型成功恢复了86%的holo结构。然而,其对apo构象的预测性能较低,仅有56%被准确预测,这突出表明需要进一步改进,特别是在模拟未结合结构或在训练过程中更好地平衡apo和holo表示方面。
结论
隐性口袋为药物发现提供了令人兴奋的机遇,例如,它们使得靶向先前被认为“不可成药”的蛋白质成为可能。然而,其瞬时和动态的特性使得使用基于静态结构的实验筛选方法难以检测。基于物理的分子动力学(MD)模拟,特别是与FAST、MSMs、混合溶剂方法和增强采样等先进技术结合时,已被证明能有效捕捉这些隐藏口袋的动态形成和特性。同时,人工智能(AI)驱动模型提供了快速且可扩展的替代方案,能够以日益提高的准确性和可解释性预测隐性口袋的位置和动力学。尽管取得了这些进展,关键挑战依然存在:MD模拟计算成本高昂且通常针对特定系统,而AI模型可能产生非物理结果或难以在不同蛋白质间泛化。一个主要限制是缺乏大规模、经过实验测试的基准数据集。未来的努力应侧重于构建高质量的训练数据,将AI与基于物理的方法相结合,提高模型的可解释性,并持续将预测与实验验证配对,以加速隐性口袋的发现和药物设计。

生物通微信公众号
微信
新浪微博


生物通 版权所有