深度学习的最新进展在计算生物学领域取得了突破性进展,特别是在与蛋白质相关的研究中。其核心在于,深度神经网络通过多层架构构建了层次化的特征表示,从而能够从复杂的生物数据中提取高维的、抽象的语义信息(图1)。这种迭代的特征工程过程通过从原始输入信号中提取区分性模式来增强模型的鲁棒性。与传统的机器学习(Jordan和Mitchell,2015)不同,后者依赖于手动特征工程,深度学习(LeCun等人,2015)通过端到端的神经网络训练自动发现特征。这种范式的转变在解决蛋白质科学中的高维挑战方面发挥了重要作用,在那里由于氨基酸序列和结构景观的组合复杂性,手动注释是不可行的。
蛋白质作为生命的分子执行者,通过其多方面的功能调节几乎所有的生物过程。这些大分子协调了包括酶催化、信号转导、代谢调节和细胞骨架组织在内的关键细胞活动——这些功能共同确保了生物体的生存能力。这种功能多样性从根本上根植于蛋白质的三维结构及其动态构象景观:氨基酸序列或空间排列的微妙变化可以深刻改变活性、稳定性和相互作用特异性。这种复杂的结构-功能关系构成了现代药物发现的基础。至关重要的是,许多与疾病相关的功能障碍不仅仅源于静态的结构缺陷,还源于异常的动态变化——例如错误折叠动力学、受损的构象转换或改变的别构通讯。因此,以原子分辨率理解蛋白质动态使得针对由蛋白质错误折叠或功能障碍引起的疾病进行有针对性的干预成为可能。蛋白质系统的复杂性进一步需要整合实验表征和计算建模的方法,以高通量方式解码功能景观。
在大数据时代,将AI整合到各个研究领域是一个主要趋势。在生物学研究中,随着数据的爆炸性增长,迫切需要更快、更准确的数据处理方法。因此,生物技术和深度学习的结合是一个自然的结果。对于数量达到数万甚至数亿的数据,仅靠人类分析是不可能的。另一方面,深度学习在处理大规模数据方面表现出色,能够提供卓越的性能。本文回顾了深度学习在蛋白质研究中的三个层面的成功应用:蛋白质结构预测、蛋白质功能预测和蛋白质设计(图2)。
蛋白质结构预测在生物学、医学和药学中具有至关重要的意义。传统的实验方法耗时且成本高昂。计算方法提供了一个实用的替代方案。AlphaFold2(AF2)在CASP14竞赛中的表现证明了一个关键突破(Pereira等人,2021),其准确性可与实验室方法相媲美(Cramer,2021;Jumper等人,2021;Tunyasuvunakool等人,2021)。这一进展有效地解决了在没有实验约束的情况下获得可靠3D模型的挑战。此外,它提供了一个庞大的预测结构库,这对于研究非模式生物尤为重要,因为在像PDB这样的数据库中,与人类蛋白质组相比,可用的实验确定结构要少得多(Burley等人,2019)。
由于已知蛋白质的数量与其功能注释之间的差距不断扩大,蛋白质功能预测已成为一个核心问题。传统方法在从单一数据源中完全提取信息方面受到限制。主要的挑战往往在于建立强大的训练数据集,以确保模型能够有效地泛化到未见过的蛋白质,超越基于同源性的推断。
蛋白质设计代表了一个重大突破——能够创造满足特定需求的新蛋白质分子。计算驱动的设计取得了巨大成功,从早期的从头设计到今天的深度学习增强方法。最近由深度学习和结构预测的进步所推动的突破展示了其在精确设计新型蛋白质方面的潜力。
总体而言,这些基于深度学习的方法为生物医学研究及其他领域提供了创新的视角和强大的工具。它们使得高效探索庞大的序列空间成为可能,显著加速了药物发现,并扩展到了材料科学和环境生物技术等领域。这一方法论的突破有可能推动个性化医疗、精准医疗和生物制造的发展。随着技术的进步,我们正处于一场数据驱动的、智能生物技术革命的门槛上,这将重塑我们对生命科学的理解和应用。