肽因其在生物代谢[[1], [2], [3], [4]]、蛋白质结构调节[5]以及食品科学[6]、皮肤护理[7,8]、生物材料[9,10]和治疗[11,12]等领域的广泛应用而受到广泛关注。尽管相对简单,短肽却表现出复杂的结构动态,这使得严格研究变得困难。
基于深度学习的方法(如AlphaFold (AF))通过提供高度准确的结构模型[13,14]彻底改变了蛋白质结构预测。然而,AF存在显著局限性:它主要预测单一构象状态而非构象集合,无法充分捕捉动态区域和内在无序蛋白(IDPs)[15,16]。对于肽而言,AF的预测准确性通常低于大型蛋白质,并且偶尔无法再现实验结构[17]。关键的是,肽通常存在于构象集合中,而AF的单状态输出无法很好地表示这种动态行为。尽管存在扩展AlphaFold结构覆盖范围的途径,但这些方法仍处于开发初期[18]。
结构稳定性是指肽在热波动下保持相同构象的能力。由于许多治疗肽通过特定结构形式发挥其生物效应,因此结构稳定性对其活性至关重要[19]。稳定性通过反映肽采用功能性相关结构的构象集合来体现。因此,具有可预测折叠和稳健结构稳定性的肽支架非常受欢迎。增强的结构稳定性边际为工程化新功能提供了基础,同时保持了实际应用所需的临界水平以上的结构稳定性[20]。虽然已经提出了如分子动力学(MD)等计算方法来评估五肽[21]和具有重复单元的八肽[22]的结构稳定性,但对于更长、更多样化的肽,这些方法仍然具有价值。
PepFlow (PF)是一种可迁移的生成模型,可以从输入肽的可访问构象空间中进行全原子采样[23]。PF经过训练,能够近似由MD轨迹得出的概率分布,从而再现实验肽集合,从而解决了结构多样性限制问题。与其他机器学习模型一样,PF的输出依赖于其训练数据——实验结构和使用力场的MD衍生构象。这给PF和AF都带来了限制。首先,虽然非典型氨基酸和修饰对增强治疗肽具有潜力[24,25],但这些类似物的实验数据稀缺,给基于ML的预测带来了挑战。其次,环境因素(如pH值、温度、离子强度)对肽行为有显著影响[[26], [27], [28]],但目前AF和PF都未能有效纳入这些变量,可能导致预测偏差[29]。
结合适当的能量模型,MD模拟可以纳入非典型残基和环境条件来计算自由能景观并量化性质[30,31]。然而,肽的崎岖势能面(PES)需要先进的采样技术(例如CREST中的元动力学[32,33])来进行有效的相空间探索。
其他方法利用分子知识来搜索构象集合,包括遗传算法和基于结构的方法[[34], [35], [36]]。其中,拼接方法能够高效地探测肽的构象空间[[37], [38], [39], [40]]。该技术通过整合片段集合来重建全长肽集合,利用关键片段间相互作用可以通过扩展片段采样和主链调整来恢复。
这种从片段组装构象的原则直接关联到一系列为内在无序蛋白质和肽的构象采样开发的高效、基于片段的策略,这些策略避免了模拟整个链的昂贵成本。早期的统计方法,如Flexible-Meccano方法,通过使用来自实验“线圈”库的二面角分布来组装残基或短片段来生成集合,可选地结合了依赖邻居的统计信息[[41], [42], [43]]。最近,分子动力学(MD)模拟被整合进来,提供了基于物理的基础。例如,层次链生长(HCG)方法通过直接连接预采样的短片段MD结构来构建全长集合[[44], [45], [46]]。概率MD链生长(PMD-CG)综合了这些思想,它使用从三肽MD模拟中提取的二面角统计分布作为链组装的来源[47]。
我们最近通过在工作流程阶段系统地修剪低多样性构象体并采用快速能量近似后进行高精度细化,加速了拼接方法[48]。这种两片段拼接方案已被证明对于生成多达八个残基的肽的构象集合非常有效且可靠。然而,对于更长的肽链,简单的两片段分割会导致单个片段变长。这带来了一个挑战:紧凑、低能量片段结构与那些为片段间相互作用准备的更高能量构象之间的能量差距变大。捕捉这些关键候选构象需要更宽的能量窗口,这增加了构象池的大小以及错过最优全局结构的风险。
在这里,我们提出了一种改进的拼接方法,将这一框架扩展到能够高效生成较长肽的集合。我们的方法利用目标肽片段的结构信息,将原始方案从两片段拼接发展为三片段拼接。这种改进直接解决了能量窗口问题,通过平均使用更短的片段,减少了每个片段所需的搜索范围,使构象搜索变得可行。在短肽系统上的验证证明了该方法在预测肽结构及其稳定性方面的能力。