在生物技术领域,蛋白质设计一直面临着多重优化目标的挑战。当设计目标存在此消彼长的权衡关系时,或者当蛋白质结构模板难以获得时,如何设计出同时满足多个理想特性的蛋白质就成为了一项基础性难题。传统方法如定向进化需要大量实验筛选,理性设计又受限于结构知识的完整性,而半理性设计虽然在一定程度上平衡了这两者的局限,但仍然难以在复杂的序列-功能空间中高效导航。正是在这样的背景下,来自韩国生物信息学与分子设计研究中心的研究团队在《Briefings in Bioinformatics》上发表了他们的最新研究成果——SAGE-Prot评分辅助生成探索蛋白质设计框架。为了应对这些挑战,研究人员开发了一个模块化、可扩展的蛋白质设计框架SAGE-Prot。该框架的创新之处在于将自回归序列生成、基于遗传算法(GA)的多样化和评分引导的属性评估整合到一个闭环优化过程中。与传统方法不同,SAGE-Prot直接在序列水平进行优化,而不依赖结构模板进行生成,同时允许结构感知的评估。研究人员为开展此项研究主要采用了以下关键技术方法:首先构建了包括SwissProt-reduced和TEM-1定制数据集在内的蛋白质序列数据库;接着基于LSTM和Transformer Decoder(TD)架构开发了自回归自然语言处理模型进行预训练;然后整合了包括One-hot、PCgrades、ESM系列嵌入和PCspairs等八种蛋白质描述符来构建QSPR模型;最后通过遗传算法操作(包括同源搜索、突变和交叉)实现序列多样化,并在多目标优化中引入了课程学习(CL)策略来加速收敛。Pretraining of the SAGE-Prot models with protein sequence databases为了评估SAGE-Prot生成语法和功能合理蛋白质的能力,研究人员首先在精选的蛋白质数据集上预训练了模型。他们构建了三个数据集:SwissProt(代表全面注释的天然蛋白质语料库)、SwissProt-reduced(去除与10个基准蛋白药物具有50%以上序列相似性的序列)和Custom TEM-1(专注于β-内酰胺酶同源物的领域特定数据集)。使用基于LSTM和TD架构的自回归模型在每个数据集上进行预训练,生成的序列在有效性、长度分布、独特性和新颖性四个指标上表现出色。对于SwissProt和SwissProt-reduced数据集,模型实现了100%的独特性和新颖性,而在Custom TEM-1数据集上,LSTM模型实现了91%独特性和82%新颖性,TD模型为79%和74%,表明在狭窄序列空间中TD模型更容易过拟合。
Goal-directed benchmarks with SAGE-Prot在目标导向基准测试中,研究人员评估了SAGE-Prot在蛋白质从头设计中的实际效用。Rediscovery任务测试已知蛋白质药物的精确再生,Similarity任务评估同源序列的生成。使用10种治疗蛋白作为靶标,比较了五种生成策略:GA、LSTM、TD、LSTM/GA和TD/GA。所有NLP模型均在SwissProt-reduced数据集上预训练,排除了与靶标具有>50%同一性的序列。结果显示,混合模型LSTM/GA和TD/GA明显优于独立模型,Rediscovery得分分别为9.986和8.596,Similarity得分分别为9.960和7.486。LSTM/GA模型成功识别了10个靶标中的9个,证明了自回归建模与基于GA的多样化相结合的协同优势。GB1 design with SAGE-Prot for binding affinity and thermal stability研究人员将SAGE-Prot应用于GB1变体设计,旨在增强其结合亲和力和热稳定性。他们从之前的突变研究中收集了结合亲和力和热稳定性数据集,并构建了使用各种蛋白质描述符和回归器的QSPR模型。对于亲和力,在单突变上训练的PCspairs/LGBM模型实现了最佳交叉验证性能(R2=0.645)。对于热稳定性,ESM-1b描述符与LGBM组合的模型表现最佳(R2=0.678)。在优化过程中,所有生成的序列被限制在56个氨基酸的固定长度,并需要保持与野生型GB1大于90%的序列相似性。在结合亲和力SPO任务中,SAGE-Prot最终中位数得分为59.749,最佳变体预测亲和力为58.578。在热稳定性SPO任务中,最终中位数得分为1.641,最佳变体预测稳定性为0.476。对于MPO任务,最终中位数得分为2.423。引入课程学习(CL)策略后,结合亲和力SPO任务的最终中位数得分提高到63.308,热稳定性SPO任务提高到3.254,MPO任务也显示出明显改善。
TEM-1 design with SAGE-Prot for enzymatic activity and protein solubility为进一步评估SAGE-Prot的实际效用,研究人员将其应用于TEM-1β-内酰胺酶的设计,这是一个涉及酶活性和蛋白质溶解度同时增强的具有挑战性的多目标设计问题。他们整理了文献来源的酶活性和蛋白质溶解度数据集,并通过网格搜索和5折交叉验证训练了QSPR模型。对于两种特性,表现最佳的模型都使用ESM-1v嵌入与LightGBM结合。对于酶活性,该模型实现了R2=0.701;对于溶解度,R2=0.508。与基于SwissProt的预训练相比,在TEM-1特定定制数据集上预训练的模型在生成同源序列和发现高评分变体方面表现出更优的性能。在酶活性SPO任务中,SAGE-Prot最终中位数得分为3.570,最佳变体预测活性为1.666。在溶解度优化中,最终中位数得分为3.071,最佳变体预测溶解度为1.097。在MPO任务中,中位数得分为2.898。应用课程学习(CL)后,酶活性SPO任务的最终中位数得分提高到4.025,但溶解度改善有限。实验验证了六个排名靠前的变体(BMD-01-BMD-06),所有变体均显示出超过野生型100倍以上的催化活性提升,其中BMD-01表现出752.5倍的增加,证实了SAGE-Prot生成功能优化酶的能力。