综述：人工智能在蛋白质折叠与设计中的应用方法

时间：2025年6月12日

来源：Current Opinion in Structural Biology

编辑推荐：

这篇综述系统探讨了机器学习（ML）在蛋白质结构预测（如AlphaFold2/AF2、RoseTTAFold）和逆向折叠（如ProteinMPNN、ESM-IF）中的突破性进展，揭示了当前模型在物理机制捕捉与能量景观表征上的局限性，同时展望了基于结构设计（如RFdiffusion、AF2-design）在生物技术应用中的潜力。

蛋白质折叠问题

蛋白质折叠的核心挑战涵盖三大支柱：从序列预测结构、量化维持蛋白质单稳态的原子间作用力，以及解析折叠能量景观。尽管实验已测定约87k蛋白质结构，但传统方法如X射线晶体学和冷冻电镜仍面临耗时、高成本的瓶颈。机器学习模型如AlphaFold2（AF2）通过整合进化信息，实现了原子级精度预测，但其物理机制解释性不足，尤其在构象动态模拟方面存在局限。

逆向折叠问题

“逆向折叠”与“基于结构的序列设计”常被混用，但二者存在本质差异。前者严格遵循生物物理范式，要求序列在给定能量函数下唯一折叠为目标结构；后者则侧重生成与结构兼容的序列（如通过最大化P(sequence|structure)）。ProteinMPNN和ESM-IF等模型通过逆向折叠框架，显著提升了序列设计的效率，但尚未完全解决构象特异性设计难题。

结论与展望

当前ML模型在蛋白质工程中展现出双重性：AF2和ESMFold在预测精度上颠覆传统，而RFdiffusion等工具通过扩散模型生成创新结构。未来需开发能全面表征能量景观的算法，以精准设计具有特定动态特性的蛋白质。多链结构预测（如AlphaFold-Multimer）和功能导向设计将成为下一阶段焦点，推动合成生物学与药物开发。