编辑推荐:
本研究针对蛋白质工程中多目标优化难题,开发了基于机器学习(ML)的迭代优化框架。研究人员以谷氨酰胺结合蛋白(QBP)为模型,通过整合遗传算法(GA)、Rosetta结构模拟和主动学习策略,成功实现了ΔΔG(结合自由能)和Rosetta Total score(结构稳定性)的同步优化。该工作发表于《International Journal of Biological Macromolecules》,创新性地将AI预测模型与实验验证闭环结合,为复杂蛋白质属性的理性设计提供了高效解决方案。
在生命科学领域,蛋白质犹如精密的分子机器,其功能取决于复杂的三维结构和精细的氨基酸序列。然而,传统蛋白质工程面临巨大挑战:定向进化耗时费力,分子动力学模拟计算成本高昂,而理性设计难以平衡稳定性、结合亲和力等多重目标。特别是当需要同时优化相互冲突的蛋白质特性时,如提高热稳定性(Tm)的同时增强配体结合能力(ΔΔG),常规方法往往束手无策。
韩国科学技术研究院的Young-Joon Ko、Keunwan Park团队在《International Journal of Biological Macromolecules》发表的研究,开创性地将机器学习(ML)与迭代优化相结合,以谷氨酰胺结合蛋白(QBP)为模型系统,开发出高效的蛋白质工程新范式。研究团队首先构建了包含15,000个突变体的训练数据集,采用Rosetta计算ΔΔG、Total score和形状互补性(SC)等结构参数。随后建立随机森林模型预测这些特性,并设计遗传算法(GA)进行多目标序列优化。通过三轮迭代,模型预测性能显著提升,相关系数从0.38增至0.62。
关键技术包括:1) Rosetta结构建模与能量计算;2) 基于随机森林的机器学习预测模型;3) 遗传算法驱动的序列优化;4) AlphaFold3(AF3)结构预测验证;5) 分子动力学(MD)模拟结合MM-PBSA自由能计算。实验验证采用大肠杆菌表达系统和圆二色谱(CD)测定热稳定性。
【2.1 序列优化工作流程】
研究设计了包含模型引导采样、数据生成和模型优化的三阶段循环。通过Rosetta模拟生成初始训练数据后,ML模型指导GA探索序列空间,每轮仅验证高分序列实现数据高效利用。
【2.2 QBP突变位点选择】
聚焦17个关键位点,包括配体结合口袋5Å内残基和铰链区,理论序列空间达2×1012种。通过共进化分析(PMAT)确定功能关键位点如D66、G80等。
【2.3 不同权重评分函数的优化】
比较五种权重组合(ΔΔG:Total score从100:0到0:100),发现专一优化ΔΔG可使结合能降低3.2 kcal/mol,而纯稳定性优化意外提升ΔΔG 1.5 kcal/mol,揭示二者部分协同。
【2.4 ML模型预测性能】
三轮优化后,Total score预测R2达0.72,ΔΔG模型R2=0.68,显著优于初轮性能(R2=0.38)。
【2.5 优化序列的结构分析】
特征重要性分析显示:ΔΔG关键位点(D66、V155)直接接触配体;稳定性关键位点(F77、Y82)位于铰链区。AF3预测显示D181突变显著影响结合口袋几何。
【2.6 实验与预测差异】
10个突变体的CD实验显示,Rosetta Total score与实测Tm相关性弱(r=0.038),暴露了物理力场的局限性。
【2.7 AF3模型的验证】
AF3预测结构与实验Tm高度相关,其中SMINA对接评分相关性最强(r=−0.814)。ProGen2序列似然评分也展现预测潜力(p=0.067)。
【2.8 AI方法整合展望】
指出AF3和ProteinMPNN等AI工具可弥补传统方法的不足,但需注意计算成本与构象动态预测的平衡。
研究结论强调,该ML框架成功实现了QBP多目标优化,三轮迭代使ΔΔG和Total score同步提升。关键创新在于:1) 建立属性特异性预测模型;2) 开发可定制评分函数的灵活优化系统;3) 揭示稳定性与结合能的协同位点。尽管Rosetta评分与实验存在偏差,但AF3结构预测和AI衍生指标(如ProGen2评分)展现出强大互补价值。这项工作为膜蛋白、多聚体等复杂系统的工程化提供了普适性方法论,标志着蛋白质设计进入智能化迭代新时代。
讨论部分特别指出,维持"预组织结合位点"(pre-organized binding site)是平衡稳定性和结合亲和力的关键。未来通过整合AF3预测和语言模型,可进一步突破现有蛋白质工程的技术瓶颈。该研究不仅为生物传感器、CID系统开发奠定基础,更为工业酶、治疗性蛋白的理性设计开辟了新途径。
生物通 版权所有