综述:深度学习彻底改变了蛋白质研究:在结构预测、功能注释和工程设计方面取得了重大进展

时间:2026年3月17日
来源:Journal of Biotechnology

编辑推荐:

深度学习通过结构预测、功能注释与理性设计形成自增强循环,推动药物开发与合成生物学,改变蛋白质研究从描述性观察到原理性工程的范式转变。

广告
   X   

Jintong Zhang|Shengjie Wang|Le Gao|Qian Li
大连理工大学,中国大连 116034

摘要

深度学习的最新进展通过创建一个将结构预测、功能注释和理性设计联系起来的协同循环,从根本上改变了蛋白质研究。本文提出了一个综合框架,展示了一个领域中的突破如何催化另一个领域的进展。首先,对于广泛的单结构球状蛋白质——特别是那些具有足够进化信息的蛋白质——端到端的深度学习模型(以AlphaFold2为例)已经达到了接近实验的准确性,有效地解决了结构生物学中的一个核心挑战,并生成了一个前所未有的高置信度预测结构库。这些庞大的结构库成为了“理解”阶段的重要基础,在这个阶段,多模态模型越来越多地将3D坐标与序列和相互作用数据结合起来,以实现精确的、基于机制的功能预测,超越了基于同源性的推断。这些深入的功能洞察又为最终的“创造”阶段提供了关键的生化约束。在这里,生成式AI和逆折叠模型能够在所需活性蓝图的指导下,从头设计新型蛋白质——从酶到治疗药物。这种自我强化的循环通过混合实验-计算工作流程得到进一步放大,例如将冷冻电镜与AI结合使用,以解析复杂和动态的组装体。尽管数据稀缺、可解释性和分布外泛化等问题仍然存在,但这种统一的“预测-理解-创造”范式确立了深度学习作为蛋白质科学新时代的基石。它不仅加速了药物开发和合成生物学的发现,还将该领域从描述性观察转变为基于原理的、可编程的生物分子功能工程。

引言

深度学习的最新进展在计算生物学领域取得了突破性进展,特别是在与蛋白质相关的研究中。其核心在于,深度神经网络通过多层架构构建了层次化的特征表示,从而能够从复杂的生物数据中提取高维的、抽象的语义信息(图1)。这种迭代的特征工程过程通过从原始输入信号中提取区分性模式来增强模型的鲁棒性。与传统的机器学习(Jordan和Mitchell,2015)不同,后者依赖于手动特征工程,深度学习(LeCun等人,2015)通过端到端的神经网络训练自动发现特征。这种范式的转变在解决蛋白质科学中的高维挑战方面发挥了重要作用,在那里由于氨基酸序列和结构景观的组合复杂性,手动注释是不可行的。
蛋白质作为生命的分子执行者,通过其多方面的功能调节几乎所有的生物过程。这些大分子协调了包括酶催化、信号转导、代谢调节和细胞骨架组织在内的关键细胞活动——这些功能共同确保了生物体的生存能力。这种功能多样性从根本上根植于蛋白质的三维结构及其动态构象景观:氨基酸序列或空间排列的微妙变化可以深刻改变活性、稳定性和相互作用特异性。这种复杂的结构-功能关系构成了现代药物发现的基础。至关重要的是,许多与疾病相关的功能障碍不仅仅源于静态的结构缺陷,还源于异常的动态变化——例如错误折叠动力学、受损的构象转换或改变的别构通讯。因此,以原子分辨率理解蛋白质动态使得针对由蛋白质错误折叠或功能障碍引起的疾病进行有针对性的干预成为可能。蛋白质系统的复杂性进一步需要整合实验表征和计算建模的方法,以高通量方式解码功能景观。
在大数据时代,将AI整合到各个研究领域是一个主要趋势。在生物学研究中,随着数据的爆炸性增长,迫切需要更快、更准确的数据处理方法。因此,生物技术和深度学习的结合是一个自然的结果。对于数量达到数万甚至数亿的数据,仅靠人类分析是不可能的。另一方面,深度学习在处理大规模数据方面表现出色,能够提供卓越的性能。本文回顾了深度学习在蛋白质研究中的三个层面的成功应用:蛋白质结构预测、蛋白质功能预测和蛋白质设计(图2)。
蛋白质结构预测在生物学、医学和药学中具有至关重要的意义。传统的实验方法耗时且成本高昂。计算方法提供了一个实用的替代方案。AlphaFold2(AF2)在CASP14竞赛中的表现证明了一个关键突破(Pereira等人,2021),其准确性可与实验室方法相媲美(Cramer,2021;Jumper等人,2021;Tunyasuvunakool等人,2021)。这一进展有效地解决了在没有实验约束的情况下获得可靠3D模型的挑战。此外,它提供了一个庞大的预测结构库,这对于研究非模式生物尤为重要,因为在像PDB这样的数据库中,与人类蛋白质组相比,可用的实验确定结构要少得多(Burley等人,2019)。
由于已知蛋白质的数量与其功能注释之间的差距不断扩大,蛋白质功能预测已成为一个核心问题。传统方法在从单一数据源中完全提取信息方面受到限制。主要的挑战往往在于建立强大的训练数据集,以确保模型能够有效地泛化到未见过的蛋白质,超越基于同源性的推断。
蛋白质设计代表了一个重大突破——能够创造满足特定需求的新蛋白质分子。计算驱动的设计取得了巨大成功,从早期的从头设计到今天的深度学习增强方法。最近由深度学习和结构预测的进步所推动的突破展示了其在精确设计新型蛋白质方面的潜力。
总体而言,这些基于深度学习的方法为生物医学研究及其他领域提供了创新的视角和强大的工具。它们使得高效探索庞大的序列空间成为可能,显著加速了药物发现,并扩展到了材料科学和环境生物技术等领域。这一方法论的突破有可能推动个性化医疗、精准医疗和生物制造的发展。随着技术的进步,我们正处于一场数据驱动的、智能生物技术革命的门槛上,这将重塑我们对生命科学的理解和应用。

章节摘录

自我强化的循环:蛋白质深度学习的综合框架

越来越多的学术综述详细记录了蛋白质深度学习各个子领域内的快速技术发展。目前,蛋白质研究中的深度学习综述表现出显著的专业化:结构预测综述专注于解码像AF2这样的模型的架构原理(Meng等人,2025;Zhan等人,2025);功能预测综述比较了不同数据模态下的模型性能(Avery等人,2022;Yan等人,

蛋白质结构预测

蛋白质结构预测涉及从氨基酸序列计算推断蛋白质的3D构象。由于结构决定了功能、特异性和生化特性,准确的预测是生物医学研究和药物发现的基础,它使得阐明疾病机制、设计靶向疗法和开发新型生物分子成为可能。计算蛋白质结构预测通过两个核心范式发展而来:

蛋白质功能预测

蛋白质功能预测被定义为将蛋白质分配到基因本体(GO)框架中的一个或多个功能术语的任务(Huntley等人,2015),通常被视为一个多标签分类问题(Bi等人,2022)。虽然早期的计算方法严重依赖于序列同源性,但最近高置信度预测结构的增加(2)促进了范式的转变。功能注释正在演变为一个结构感知的推断问题,

蛋白质理性设计

计算蛋白质设计通过两个基础方法论框架发展而来:从头设计,它利用计算算法从第一原理构建新的多肽序列(Quijano-Rubio等人,2021;Huang等人,2016a);以及基于结构的分子设计,它利用自然存在的蛋白质架构来设计功能性生物分子。这种蛋白质工程中的范式转变——称为理性设计——使得系统化的操作成为可能

数据集在深度学习中的核心作用

深度学习模型本质上是数据驱动的,其性能在很大程度上取决于训练数据的质量、规模和多样性。公开可访问的蛋白质数据库是模型训练、验证和基准测试不可或缺的资源。这些库使得提取进化模式、结构约束和功能特征成为可能,从而构成了当代蛋白质研究预测模型的基础,

蛋白质研究中深度学习的评估指标

对蛋白质科学中的深度学习模型进行严格评估需要针对特定任务(结构预测、功能注释和蛋白质设计)定制的标准化指标。这些指标为模型性能提供了定量基准,促进了跨研究比较,并指导了方法论的改进。

前景与启示

深度学习方法正在将蛋白质研究从技术性的分割路径引向一个自我强化的综合研究循环:“预测-理解-创造”。通过考察结构预测、功能注释和理性设计这三个关键领域的突破,本文展示了这一循环的内在逻辑和强大的动力:高精度的结构预测为功能理解提供了新的基础;深度功能

结论

深度学习通过统一的“预测-理解-创造”框架从根本上重塑了蛋白质科学研究的范式。我们详细介绍了端到端架构(以AF2和RoseTTAFold为例)如何实现高精度的结构预测,提供了前所未有的全局结构图谱。这种预测能力直接促进了蛋白质功能的理解,推动多模态模型整合结构信息,超越了基于同源性的推断

CRediT作者贡献声明

Shengjie Wang: 形式分析。Jintong Zhang: 写作——原始草稿。Qian Li: 写作——审阅与编辑。Le Gao: 写作——审阅与编辑,监督。

资助

本工作得到了国家自然科学基金(U24A20446)和宁夏回族自治区政府指导地方科技发展专项资金(2025FRF05008)的支持。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(U24A20446)和宁夏回族自治区政府指导地方科技发展专项资金(2025FRF05008)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有