编辑推荐:
在大量序列数据上训练的人工智能网络是设计全新基因组的一步。
科学家们今天发布了一款名为Evo-2的人工智能(AI)模型,称其为迄今为止最大的生物学AI模型。该模型基于从人类到单细胞细菌和古细菌的12.8万个基因组进行训练,能够从零开始编写完整的染色体和小基因组,并且可以解释现有的DNA序列,包括那些与疾病相关的难以解读的“非编码”基因变异。
Evo-2由位于加州帕洛阿尔托的Arc研究所和斯坦福大学的研究人员,以及芯片制造商NVIDIA共同开发。科学家可以通过网络界面使用该模型,或者免费下载所需的软件代码、数据和其他参数。
开发人员将Evo-2视为一个可定制的平台,供其他研究人员根据自身需求进行调整。Arc研究所和加州大学伯克利分校的生物工程师Patrick Hsu在新闻发布会上表示:“我们非常期待科学家和工程师如何利用这个平台为生物学建立一个‘应用商店’。”
其他科学家对Evo-2的潜力印象深刻,尽管他们表示在得出最终结论之前还需要进行更多测试。帕洛阿尔托斯坦福大学的计算基因组学家Anshul Kundaje说:“在预印本发布后,我们必须看看它在独立基准测试中的表现如何。”到目前为止,他对支撑该模型的工程技术印象深刻。
近年来,研究人员开发了越来越强大的“蛋白质语言模型”,例如由Meta前员工开发的ESM-3模型。该模型经过数百万蛋白质序列的训练,已被用于预测蛋白质结构和设计全新的蛋白质,包括基因编辑器和荧光分子。
与这些模型不同,Evo-2是基于基因组数据进行训练的,这些数据既包括“编码序列”(携带制造蛋白质的指令),也包括非编码DNA(控制基因何时、何地以及如何激活的序列)。去年发布的Evo-1模型是在8万个细菌和古细菌(简单生物体)及其病毒的基因组上训练的。而最新的Evo-2模型则基于12.8万个基因组,涵盖了人类和其他动物、植物以及其他真核生物的基因组。这些基因组总共包含9.3万亿个DNA碱基。开发人员表示,基于这些数据和所需的计算能力,Evo-2是迄今为止发布的最大的生物人工智能模型。
与原核生物相比,真核生物的基因组通常更长、更复杂:基因由编码区和非编码区交替组成,非编码的“调控DNA”可能远离其控制的基因。为了处理这种复杂性,Evo-2能够学习长达100万个碱基对的DNA序列模式。
为了证明其对复杂基因组的理解能力,Hsu及其团队利用Evo-2预测了与乳腺癌相关的BRCA1基因突变的影响。在判断编码区域的变化是否会导致疾病方面,Evo-2的表现几乎与现有的最佳生物人工智能模型相当,Hsu说:“这是非编码突变分析的最新技术。”未来,该模型有望帮助识别患者基因组中那些难以解释的变化。
研究人员还测试了Evo-2破译复杂基因组其他特征的能力,例如猛犸象的基因组。加州大学旧金山分校格莱斯顿研究所的计算生物学家Christina Theodoris表示:“Evo-2代表了学习DNA调控语法的重要一步。”
生物通 版权所有