SAGE-Prot:基于评分辅助生成探索的多目标蛋白质设计新框架及其在TEM-1β-内酰胺酶高效改造中的验证

时间:2025年11月10日
来源:Briefings in Bioinformatics

编辑推荐:

本研究针对多特性蛋白质设计中存在的权衡难题和结构模板缺失问题,开发了模块化框架SAGE-Prot。该框架整合自回归序列生成、遗传算法多样化和QSPR指导的评价系统,在10种治疗蛋白的基准测试中显著优于传统方法。实验验证显示设计的TEM-1β-内酰胺酶变体催化活性最高提升752倍,为数据驱动的蛋白质工程提供了通用平台。

广告
   X   

在生物技术领域,蛋白质设计一直面临着多重优化目标的挑战。当设计目标存在此消彼长的权衡关系时,或者当蛋白质结构模板难以获得时,如何设计出同时满足多个理想特性的蛋白质就成为了一项基础性难题。传统方法如定向进化需要大量实验筛选,理性设计又受限于结构知识的完整性,而半理性设计虽然在一定程度上平衡了这两者的局限,但仍然难以在复杂的序列-功能空间中高效导航。正是在这样的背景下,来自韩国生物信息学与分子设计研究中心的研究团队在《Briefings in Bioinformatics》上发表了他们的最新研究成果——SAGE-Prot评分辅助生成探索蛋白质设计框架。
为了应对这些挑战,研究人员开发了一个模块化、可扩展的蛋白质设计框架SAGE-Prot。该框架的创新之处在于将自回归序列生成、基于遗传算法(GA)的多样化和评分引导的属性评估整合到一个闭环优化过程中。与传统方法不同,SAGE-Prot直接在序列水平进行优化,而不依赖结构模板进行生成,同时允许结构感知的评估。
研究人员为开展此项研究主要采用了以下关键技术方法:首先构建了包括SwissProt-reduced和TEM-1定制数据集在内的蛋白质序列数据库;接着基于LSTM和Transformer Decoder(TD)架构开发了自回归自然语言处理模型进行预训练;然后整合了包括One-hot、PCgrades、ESM系列嵌入和PCspairs等八种蛋白质描述符来构建QSPR模型;最后通过遗传算法操作(包括同源搜索、突变和交叉)实现序列多样化,并在多目标优化中引入了课程学习(CL)策略来加速收敛。
Pretraining of the SAGE-Prot models with protein sequence databases
为了评估SAGE-Prot生成语法和功能合理蛋白质的能力,研究人员首先在精选的蛋白质数据集上预训练了模型。他们构建了三个数据集:SwissProt(代表全面注释的天然蛋白质语料库)、SwissProt-reduced(去除与10个基准蛋白药物具有50%以上序列相似性的序列)和Custom TEM-1(专注于β-内酰胺酶同源物的领域特定数据集)。使用基于LSTM和TD架构的自回归模型在每个数据集上进行预训练,生成的序列在有效性、长度分布、独特性和新颖性四个指标上表现出色。对于SwissProt和SwissProt-reduced数据集,模型实现了100%的独特性和新颖性,而在Custom TEM-1数据集上,LSTM模型实现了91%独特性和82%新颖性,TD模型为79%和74%,表明在狭窄序列空间中TD模型更容易过拟合。
Goal-directed benchmarks with SAGE-Prot
在目标导向基准测试中,研究人员评估了SAGE-Prot在蛋白质从头设计中的实际效用。Rediscovery任务测试已知蛋白质药物的精确再生,Similarity任务评估同源序列的生成。使用10种治疗蛋白作为靶标,比较了五种生成策略:GA、LSTM、TD、LSTM/GA和TD/GA。所有NLP模型均在SwissProt-reduced数据集上预训练,排除了与靶标具有>50%同一性的序列。结果显示,混合模型LSTM/GA和TD/GA明显优于独立模型,Rediscovery得分分别为9.986和8.596,Similarity得分分别为9.960和7.486。LSTM/GA模型成功识别了10个靶标中的9个,证明了自回归建模与基于GA的多样化相结合的协同优势。
GB1 design with SAGE-Prot for binding affinity and thermal stability
研究人员将SAGE-Prot应用于GB1变体设计,旨在增强其结合亲和力和热稳定性。他们从之前的突变研究中收集了结合亲和力和热稳定性数据集,并构建了使用各种蛋白质描述符和回归器的QSPR模型。对于亲和力,在单突变上训练的PCspairs/LGBM模型实现了最佳交叉验证性能(R2=0.645)。对于热稳定性,ESM-1b描述符与LGBM组合的模型表现最佳(R2=0.678)。在优化过程中,所有生成的序列被限制在56个氨基酸的固定长度,并需要保持与野生型GB1大于90%的序列相似性。在结合亲和力SPO任务中,SAGE-Prot最终中位数得分为59.749,最佳变体预测亲和力为58.578。在热稳定性SPO任务中,最终中位数得分为1.641,最佳变体预测稳定性为0.476。对于MPO任务,最终中位数得分为2.423。引入课程学习(CL)策略后,结合亲和力SPO任务的最终中位数得分提高到63.308,热稳定性SPO任务提高到3.254,MPO任务也显示出明显改善。
TEM-1 design with SAGE-Prot for enzymatic activity and protein solubility
为进一步评估SAGE-Prot的实际效用,研究人员将其应用于TEM-1β-内酰胺酶的设计,这是一个涉及酶活性和蛋白质溶解度同时增强的具有挑战性的多目标设计问题。他们整理了文献来源的酶活性和蛋白质溶解度数据集,并通过网格搜索和5折交叉验证训练了QSPR模型。对于两种特性,表现最佳的模型都使用ESM-1v嵌入与LightGBM结合。对于酶活性,该模型实现了R2=0.701;对于溶解度,R2=0.508。与基于SwissProt的预训练相比,在TEM-1特定定制数据集上预训练的模型在生成同源序列和发现高评分变体方面表现出更优的性能。在酶活性SPO任务中,SAGE-Prot最终中位数得分为3.570,最佳变体预测活性为1.666。在溶解度优化中,最终中位数得分为3.071,最佳变体预测溶解度为1.097。在MPO任务中,中位数得分为2.898。应用课程学习(CL)后,酶活性SPO任务的最终中位数得分提高到4.025,但溶解度改善有限。实验验证了六个排名靠前的变体(BMD-01-BMD-06),所有变体均显示出超过野生型100倍以上的催化活性提升,其中BMD-01表现出752.5倍的增加,证实了SAGE-Prot生成功能优化酶的能力。
研究表明,SAGE-Prot框架的核心优势在于其模块化、解耦的架构设计。与端到端的整体模型不同,它将蛋白质设计分为三个独立阶段:序列生成、多样化和属性评估。这种设计模仿了自然进化过程,通过自回归模型实现有偏生成,通过遗传算法实现重组,通过QSPR评分进行选择。每个模块都可以独立更新,使SAGE-Prot能够保持灵活性、可扩展性,并适应蛋白质信息学的最新进展。
与RFdiffusion和ESM3等主要专注于生成的模型相比,SAGE-Prot的模块化设计通过可定制的评分函数明确纳入了目标导向的优化。与ProtGPT2等自回归模型相比,SAGE-Prot在具有迭代微调和基于GA的多样化的闭环优化框架中运行,通过逐步调整其生成分布朝向目标,持续获得显著更高的分数。
然而,研究也指出了几个需要进一步发展的局限性。SAGE-Prot对超过300个残基的蛋白质性能下降,可能反映了当前自回归模型在建模长程依赖性方面的限制。同源搜索、突变和交叉的固定比率遵循遗传算法的一般原则,但调整这些比率可能会提高性能。虽然基于QSPR的属性预测指导了功能选择,但对某些目标的预测准确性仍然一般(R2:0.508-0.701),这限制了优化分辨率。此外,课程学习在酶活性等具有陡峭功能梯度的任务中影响更为明显,而在溶解度等平滑优化景观中收益有限。
总体而言,SAGE-Prot建立在以序列为中心的设计范式上,这与蛋白质功能源于序列的生物学原理相一致。通过将生成、多样化和评估的模块化组件整合到闭环学习框架中,SAGE-Prot支持单目标和多目标优化,同时保持可解释性和灵活性。其在重发现基准测试中的表现,结合TEM-1变体实验验证显示催化活性最高提升752倍,证明了这种方法的实际效力。与结构依赖或仅生成的框架相比,SAGE-Prot提供了一种灵活的、属性引导的设计策略,适用于无模板和低同源性设置。这些特点使SAGE-Prot成为跨不同应用领域的数据驱动蛋白质设计的强大可扩展平台。

生物通微信公众号
微信
新浪微博


生物通 版权所有