ModelCIF更新:支持新兴类别的计算大分子模型

时间:2026年1月25日
来源:Journal of Molecular Biology

编辑推荐:

该研究扩展了ModelCIF数据标准以支持蛋白-配体复合物建模、多构象状态采样及从头设计蛋白质等新场景,通过整合模型生成、验证和归档工具,强化计算结构生物学领域的可重复性和数据共享,遵循FAIR原则。

广告
   X   

最近高度精确的蛋白质结构预测工具的发展极大地扩展了计算结构生物学的范围,使得建模研究比以往任何时候都更加广泛。这些新的计算机模拟机会帮助生命科学研究人员理解蛋白质如何与其环境相互作用,并支持设计具有所需特性的新分子。最终,它们在医学、药物发现或工程等领域有着广泛的应用。为了确保可重复性并促进数据交换和再利用,可以使用ModelCIF来存储预测的结构或计算的结构模型,ModelCIF是一种设计用于包含原子坐标/元数据的数据表示格式。之前发布的ModelCIF版本(1.4.4;2022-12-21)主要涵盖了通过同源性和从头算建模生成的蛋白质结构预测。在这项工作中,我们提出了ModelCIF数据标(https://github.com/ihmwg/ModelCIF)及其相关工具的扩展。这一扩展支持重要的新用例,包括蛋白质-配体相互作用和蛋白质-蛋白质相互作用的建模、采样多种构象状态以及从头算设计蛋白质。我们通过应用新的和现有的ModelCIF类别来定义这些用例的建模结果的存储和验证指南,以涵盖协议、输入和输出。此外,我们还概述了实现这些新标准的软件工具和资源的更新,并提供了模型生成、验证、归档和可视化的功能。通过在不同建模工作流程中实现一致的元数据捕获,该框架旨在支持计算模型的FAIR(可发现、可访问、可互操作和可重复使用)传播,从而促进下游应用中的可重复性和再利用。

引言


关于生物大分子的原子级结构信息对于我们理解生命科学的机制至关重要,同时也适用于包括分子机制研究、药物发现、酶工程和合成生物学在内的多种应用。近年来,计算结构模型(CSMs)的数量和质量显著增加,改变了研究人员生成和利用结构假设的方式。基于深度学习的蛋白质结构预测方面的突破,尤其是AlphaFold2 [1],通过提供几乎具有实验准确性的单体模型,并生成了涵盖单一链折叠预测之外的端到端计算机模拟研究的丰富方法生态系统,加速了这一转变。然而,如果要以FAIR(可发现、可访问、可互操作和可重复使用)的方式共享和重用这些研究结果,就必须补充相关的元数据。

这种建模方法的发展有两个直接的影响。首先,可以准确生成的模型范围扩大到了包括蛋白质-配体复合物、多分子组装体、不同构象状态的模型以及新设计的序列和结构的模型。其次,用于生成这些模型的方法更加多样化,从基于AI的共折叠和基于物理的对接到基于分子力学的调查和复杂的蛋白质设计流程。因此,现在所需的元数据远远超出了“经典”单体预测所需的范围。

ModelCIF [8] 是专门为FAIR归档和共享CSMs及其元数据而设计的PDBx/mmCIF的扩展。在可互操作的PDBx/mmCIF坐标表示的基础上,ModelCIF增加了针对协议、输入、质量评估和来源的建模特定类别。ModelCIF格式的模型可以存储在ModelArchive [9]中,这是一个公开的、可引用的资源,自2021年AlphaFold2发布以来,其提交量显著增长。与专注于归档实验确定的结构和与实验限制相关的集成/混合模型的蛋白质数据银行(PDB)[10]和PDB-IHM [11]不同,ModelArchive和ModelCIF的重点是计算输出。它也不适用于完整的分子动力学轨迹,也不适用于明确表示静态模型无法捕捉的内在无序,因为这些情况由其他存储库处理 [12, 13, 14]。与其他包含CSMs的数据库(如AlphaFold数据库 [15]、SWISS-MODEL存储库 [16] 以及AdaptvBio的ProteinBase [17])相比,这项工作通过使这些数据库也能使用遵循FAIR原则的新ModelCIF格式,扩展了数据存储的范围。

尽管ModelCIF提供了坚实的基础,但计算结构生物学的快速发展也暴露了一些空白。为了填补这些空白,需要对数据标准进行有针对性的扩展,并提供关于如何使用现有定义来一致捕获机器可操作元数据的明确指导。为了概述我们面临的挑战和我们的贡献,我们提出了四个越来越常见的代表性用例(图1)。

蛋白质-配体相互作用模型。在这些研究中,小分子与大分子靶标一起进行建模。与蛋白质靶标相比,配体需要更明确的化学身份和状态描述。这包括拓扑结构、原子和键类型、质子化状态,以及在某些工作流程中还需要初始的3D构象。所采用的协议多种多样,包括对接、共折叠和模板引导的方法 [18, 19, 20]。这导致了异构的元数据需求和质量评估。此外,FAIR归档必须捕获多种互补的验证标准,并在可能的情况下包括指向支持性实验证据(例如结合亲和力或复合物形成测量)的链接。

大分子之间的相互作用。建模组装体对于理解功能至关重要,但这种方法引入了两个验证层次:(1)这些伙伴是否相互作用,如果相互作用,其化学计量比是多少?(2)预测的界面是否准确?历史上,主要的方法是对接预先形成的亚单位 [21],而现代AI方法可以直接共折叠伙伴以生成复合物模型 [19, 22, 23, 24, 25]。需要关注分子相对取向和接触几何的置信度指标。这些应该由实验证据记录来补充,以证明相互作用的存在。

不同构象状态的建模。许多大分子系统存在于多种生物学相关的状态(例如开放/关闭或活性/非活性)中,这些状态经常受到其环境的影响。用于探索这些状态的计算协议包括基于AI的采样 [26, 27]、同源建模和从头算建模 [28],以及基于物理的探索 [29]。这些协议会产生多个状态,这些状态可能同样准确且相关,占据构象景观中的不同区域。这些模型可以分组,并附有状态的能量估计。

蛋白质设计。当前的蛋白质设计流程包括以下计算机模拟步骤 [6]:骨架生成 [30, 31, 32];逆折叠或序列生成 [33, 34];以及验证,其中主要使用蛋白质结构预测方法来结构和排名设计 [19, 22, 23]。最后,体外测试对于评估这些蛋白质的表达、稳定性和功能特性至关重要。该流程还可以与额外的优化步骤完全集成,以提高体外成功率 [35, 36, 37]。

这项工作通过提出针对ModelCIF数据字典(https://github.com/ihmwg/ModelCIF)的有针对性的扩展,并提供由用例驱动的指南,以一致和互操作的方式应用新的和现有的定义来捕获协议、输入和输出,从而满足了社区的需求。通过将这些进展固定在ModelCIF中,我们旨在加强计算结构生物学的FAIR生态系统。具体来说,我们的贡献有助于精确描述所建模的内容(实体、状态和条件)、建模方式(协议、软件、参数和输入),以及为什么结果可以信任以及如何重新使用(适合目的的质量评估和指向实验证据的链接)。本文的其余部分概述了每种用例的模型存储和验证指南,并总结了支持模型生成、验证、归档和可视化的工具和资源的更新。总的来说,这些发展有助于确保随着计算结构生物学的不断发展,其输出对更广泛的研究社区来说仍然是可访问的、可解释的、可使用的和持久的。


生物通微信公众号
微信
新浪微博


生物通 版权所有