通过构象集合搜索来解析肽结构及其结构稳定性

生物通首页 > 今日动态 > 正文

通过构象集合搜索来解析肽结构及其结构稳定性

时间：2026年1月16日

来源：Computational and Theoretical Chemistry

编辑推荐：

基于核密度估计的多肽结构预测与稳定性评估框架创新采用三片段拼接策略提升计算效率与预测精度，适用于长链多肽的构象采样与稳定性分析，显著优于传统两片段方法和纯势场方法。

李志峰|肖茹|林志静

中国科学技术大学物理系，合肥230026，中国

摘要

由于肽结构固有的灵活性，计算预测肽结构及其构象稳定性仍然具有挑战性。现有的集合采样方法往往缺乏准确性或计算效率。在这项研究中，我们开发了一个稳健的计算框架，利用核密度估计平衡自由能景观来准确预测肽结构并定性评估其构象稳定性。我们引入了一种基于三片段拼接的增强型集合采样策略，取代了传统的两片段组装方法。该方法在多个短肽系统上得到了验证，其预测实验结构的准确性可与基于AI的技术相媲美，并且优于纯力场方法，在构象稳定性预测方面也表现更佳。结果表明，这项工作为肽结构及其稳定性预测建立了一个计算效率高且准确的框架，为肽工程和合理药物设计提供了重要前景。

引言

肽因其在生物代谢[[1], [2], [3], [4]]、蛋白质结构调节[5]以及食品科学[6]、皮肤护理[7,8]、生物材料[9,10]和治疗[11,12]等领域的广泛应用而受到广泛关注。尽管相对简单，短肽却表现出复杂的结构动态，这使得严格研究变得困难。

基于深度学习的方法（如AlphaFold (AF)）通过提供高度准确的结构模型[13,14]彻底改变了蛋白质结构预测。然而，AF存在显著局限性：它主要预测单一构象状态而非构象集合，无法充分捕捉动态区域和内在无序蛋白（IDPs）[15,16]。对于肽而言，AF的预测准确性通常低于大型蛋白质，并且偶尔无法再现实验结构[17]。关键的是，肽通常存在于构象集合中，而AF的单状态输出无法很好地表示这种动态行为。尽管存在扩展AlphaFold结构覆盖范围的途径，但这些方法仍处于开发初期[18]。

结构稳定性是指肽在热波动下保持相同构象的能力。由于许多治疗肽通过特定结构形式发挥其生物效应，因此结构稳定性对其活性至关重要[19]。稳定性通过反映肽采用功能性相关结构的构象集合来体现。因此，具有可预测折叠和稳健结构稳定性的肽支架非常受欢迎。增强的结构稳定性边际为工程化新功能提供了基础，同时保持了实际应用所需的临界水平以上的结构稳定性[20]。虽然已经提出了如分子动力学（MD）等计算方法来评估五肽[21]和具有重复单元的八肽[22]的结构稳定性，但对于更长、更多样化的肽，这些方法仍然具有价值。

PepFlow (PF)是一种可迁移的生成模型，可以从输入肽的可访问构象空间中进行全原子采样[23]。PF经过训练，能够近似由MD轨迹得出的概率分布，从而再现实验肽集合，从而解决了结构多样性限制问题。与其他机器学习模型一样，PF的输出依赖于其训练数据——实验结构和使用力场的MD衍生构象。这给PF和AF都带来了限制。首先，虽然非典型氨基酸和修饰对增强治疗肽具有潜力[24,25]，但这些类似物的实验数据稀缺，给基于ML的预测带来了挑战。其次，环境因素（如pH值、温度、离子强度）对肽行为有显著影响[[26], [27], [28]]，但目前AF和PF都未能有效纳入这些变量，可能导致预测偏差[29]。

结合适当的能量模型，MD模拟可以纳入非典型残基和环境条件来计算自由能景观并量化性质[30,31]。然而，肽的崎岖势能面（PES）需要先进的采样技术（例如CREST中的元动力学[32,33]）来进行有效的相空间探索。

其他方法利用分子知识来搜索构象集合，包括遗传算法和基于结构的方法[[34], [35], [36]]。其中，拼接方法能够高效地探测肽的构象空间[[37], [38], [39], [40]]。该技术通过整合片段集合来重建全长肽集合，利用关键片段间相互作用可以通过扩展片段采样和主链调整来恢复。

这种从片段组装构象的原则直接关联到一系列为内在无序蛋白质和肽的构象采样开发的高效、基于片段的策略，这些策略避免了模拟整个链的昂贵成本。早期的统计方法，如Flexible-Meccano方法，通过使用来自实验“线圈”库的二面角分布来组装残基或短片段来生成集合，可选地结合了依赖邻居的统计信息[[41], [42], [43]]。最近，分子动力学（MD）模拟被整合进来，提供了基于物理的基础。例如，层次链生长（HCG）方法通过直接连接预采样的短片段MD结构来构建全长集合[[44], [45], [46]]。概率MD链生长（PMD-CG）综合了这些思想，它使用从三肽MD模拟中提取的二面角统计分布作为链组装的来源[47]。

我们最近通过在工作流程阶段系统地修剪低多样性构象体并采用快速能量近似后进行高精度细化，加速了拼接方法[48]。这种两片段拼接方案已被证明对于生成多达八个残基的肽的构象集合非常有效且可靠。然而，对于更长的肽链，简单的两片段分割会导致单个片段变长。这带来了一个挑战：紧凑、低能量片段结构与那些为片段间相互作用准备的更高能量构象之间的能量差距变大。捕捉这些关键候选构象需要更宽的能量窗口，这增加了构象池的大小以及错过最优全局结构的风险。

在这里，我们提出了一种改进的拼接方法，将这一框架扩展到能够高效生成较长肽的集合。我们的方法利用目标肽片段的结构信息，将原始方案从两片段拼接发展为三片段拼接。这种改进直接解决了能量窗口问题，通过平均使用更短的片段，减少了每个片段所需的搜索范围，使构象搜索变得可行。在短肽系统上的验证证明了该方法在预测肽结构及其稳定性方面的能力。

部分摘录

肽结构预测工作流程

所提出的肽结构预测方法的工作流程如图1所示。该过程首先将目标肽序列划分为层次树结构，然后根据树层次结构获取所有叶节点分子的构象集合。接着根据树层次结构进行迭代拼接和主链二面角旋转，最终得到目标肽的构象集合。

第一步是目标肽序列

结果与讨论

为了验证该方法在预测肽结构及其结构稳定性方面的能力，我们在几种肽上进行了测试，相关信息见表1。该方法准确预测了测试肽的实验结构和结构稳定性。此外，该方法的结果与AF3[14]、PF23、CREST（使用XTB-GFN2和ALPB溶剂化模型）[32]以及MD模拟[65,66]的结果进行了比较。研究发现，该方法的准确性