AlphaFold:为微生物学研究开启结构生物学新大门

时间:2025年5月5日
来源:TRENDS IN Microbiology

编辑推荐:

在生物学研究中,蛋白质结构解析困难重重,传统方法耗时且有局限性。研究人员围绕 AlphaFold 展开研究,开发系列工具。结果是使非生物信息学背景人员也能使用,助力揭示蛋白质奥秘。意义在于推动微生物学等多学科发展。

广告
   X   

在生命科学的微观世界里,蛋白质就像一个个精密的 “小机器”,它们与其他蛋白质、代谢物、核酸或脂质的相互作用,决定了每一个生物体的特性。想要深入了解蛋白质的活动和功能,搞清楚它们的结构至关重要。以往,科学家们主要依靠晶体学、冷冻电镜或核磁共振光谱等实验方法来测定蛋白质结构。然而,这些方法就像慢吞吞的 “老黄牛”,不仅耗费大量时间,而且不是对所有蛋白质都适用。目前,蛋白质数据库(PDB)中虽然已经存放了 20 多万个通过实验测定的蛋白质结构,但对于庞大的蛋白质世界来说,这只是冰山一角。
随着人工智能(AI)时代的到来,AlphaFold 这款神奇的工具横空出世。它就像是蛋白质结构研究领域的 “超级侦探”,基于大量的实验信息和人工智能技术,能够对蛋白质结构进行建模和预测,而且准确性前所未有的高,如今已成为生物学研究的标准工具。AlphaFold 的出现,就如同生物学研究领域的一场及时雨,为解决蛋白质结构解析难题带来了新希望。

为了让 AlphaFold 更好地服务于广大科研人员,尤其是那些没有生物信息学专业背景,也缺乏高端计算机设备的实验微生物学家,来自德国哥廷根大学(Georg-August-University of Göttingen)微生物学与遗传学研究所普通微生物学系的研究人员展开了一系列研究。他们的研究成果发表在《TRENDS IN Microbiology》上,为生物学研究开辟了新的道路。

研究人员在此次研究中主要运用了以下关键技术方法:一是利用 AlphaFold 及其衍生工具,如 AlphaFold-Multimer、AlphaFold 3 等进行蛋白质和蛋白质复合物的结构预测;二是借助 ColabFold 和 DeepMind 的 AlphaFold Server 等工具,为科研人员提供便捷的使用界面;三是运用 Foldseek 算法及其相关工具进行蛋白质结构相似性搜索 。

AlphaFold—— 生物学的又一次革命


在 DNA 结构、遗传密码、全基因组测序以及利用 CRISPR/Cas9 系统进行基因组修饰等重大发现之后,AlphaFold 的出现无疑是生物学领域的又一座里程碑。因其卓越贡献,John Jumper 和 Demis Hassabis 荣获 2024 年诺贝尔化学奖。AlphaFold 凭借其超高的预测精度,彻底改变了蛋白质结构研究的格局,为后续研究奠定了坚实基础。

AlphaFold 应用家族


AlphaFold 的巨大成功促使其进一步发展,以满足更多研究需求。

  • 蛋白质 - 蛋白质复合物预测:蛋白质之间的相互作用是大多数细胞功能的基础。最初 AlphaFold 只能预测单体蛋白质结构,后来开发的 AlphaFold-Multimer 则将人工智能应用扩展到蛋白质复合物领域。研究人员利用它对革兰氏阳性菌枯草芽孢杆菌(Bacillus subtilis)的完整蛋白质相互作用组进行了研究和建模,并通过定点诱变验证了部分预测模型的准确性 。但该工具也有不足,于是 AlphaLink 应运而生,它能整合蛋白质交联实验的额外数据,提升预测效果。例如在预测 RpoA - RpoC(RNA 聚合酶的一部分)相互作用时,AlphaFold-Multimer 无法构建有效模型,而 AlphaLink 的预测模型却与晶体结构高度匹配。
  • 蛋白质与其他分子相互作用预测:蛋白质不仅与其他蛋白质相互作用,还能结合代谢物、核酸等分子。AlphaFold 3 通过深度学习,实现了对这些相互作用以及蛋白质翻译后修饰的预测,相比 AlphaFold-Multimer,它在蛋白质复合物建模方面也有显著改进。

让实验室研究人员能够使用 AlphaFold 预测


尽管 AlphaFold 及其衍生工具意义重大,但许多研究人员,特别是缺乏生物信息学训练的实验科学家,在使用这些工具时困难重重,而且运行这些工具对计算能力要求极高。为了解决这些问题,ColabFold 应运而生,它提供了用户友好的界面,大大降低了计算需求,用户甚至可以在浏览器中直接进行预测。此外,DeepMind 也发布了自己的网络服务器,提供 AlphaFold 3 的全部功能。

模型预测库


为了方便研究人员获取 AlphaFold 的预测结果,研究人员开发了多个数据库。AlphaFold 蛋白质结构数据库(AlphaFold DB)最初涵盖了 21 种模式生物中约 36 万种蛋白质的结构预测,后来扩展到所有通过基因组序列预测的蛋白质,数量超过 2 亿,远超 PDB。ModelArchive 则是一个收集各种来源的蛋白质和蛋白质复合物结构预测的数据库,其中的数据也会输入到 PDB 中。

从序列到结构相似性搜索


传统上,蛋白质家族的划分主要基于序列相似性,但有些序列差异较大的蛋白质却可能具有相似的结构。Foldseek 算法的出现改变了这一局面,它能在数百万个实验测定和预测的蛋白质结构中,快速准确地识别结构相似的蛋白质。其原理是通过一种编码氨基酸三级相互作用的字母表来描述蛋白质结构,而非化学主链。Foldseek Search 网络服务器方便了该算法的应用。对于微生物学家来说,SubtiWiki 数据库可以让他们轻松地对枯草芽孢杆菌的蛋白质结构进行 Foldseek 搜索。此外,Foldseek-Multimer 解决了蛋白质复合物大规模结构比较计算量大的难题,Foldseek cluster 则通过大规模结构比较,揭示了约 230 万个不同的结构簇,AlphaFold Clusters 网络服务器进一步让这些信息更易获取,还发现了细菌防御噬菌体系统与人类免疫系统组件之间惊人的结构相似性,为研究人类免疫相关蛋白质的进化提供了重要线索。

AlphaFold 预测的评估


评估 AlphaFold 预测的可靠性和准确性至关重要。Predicted Aligned Error(PAE)是衡量预测结构中部分相对位置和方向置信度的指标,通常以二维图的形式展示。但 AlphaFold 网络服务器和 AlphaFold DB 在 PAE 矩阵的交互性和上传自有模型评估方面存在局限。为此,研究人员开发了 PAE Viewer 交互式网络服务器,方便研究人员直观研究上传的蛋白质和蛋白质复合物预测的 PAE,还能整合蛋白质 - 蛋白质交联研究的实验数据。AlphaBridge 网络服务器则专注于研究界面和分子相互作用,生成交互式图表总结相关信息。

综上所述,AlphaFold 及其衍生应用构建了一个完整的生态系统,让没有专业训练和高端设备的研究人员也能利用这一创新技术。它推动了包括微生物学在内的众多生物学学科的发展,使实验室研究人员能够独立解决研究问题、验证假设。未来,随着更多科学家使用这些工具,微生物学研究有望取得更多突破,为生命科学领域带来更多惊喜和发现。

生物通微信公众号
微信
新浪微博


生物通 版权所有