Evo 2:跨越生命全领域的基因组建模与设计基础模型,开启生物复杂性的预测与创造新纪元

时间:2026年3月6日
来源:Nature

编辑推荐:

本文介绍的Evo 2是一个基于人工智能的生物学基础模型,通过对涵盖生命全领域的9万亿DNA碱基对进行训练,能够从基因组序列预测功能特性,并成为一个强大的生成模型。它具备零样本预测遗传变异功能影响的能力,包括从非编码致病突变到临床重要的BRCA1变体,并能在百万碱基对的上下文中,生成与天然序列相似度更高的线粒体、原核及真核生物基因组尺度序列。该模型的发布旨在加速对生物复杂性的探索与设计。

广告
   X   

Evo 2是一个基于人工智能的生物基础模型,在跨越生命所有领域(细菌、古菌、真核生物和噬菌体)的高度精选基因组图谱上,训练了9万亿个DNA碱基对,拥有100万个标记(token)的上下文窗口和单核苷酸分辨率。与先前模型相比,Evo 2在预测和设计能力上取得了显著进步。它包含70亿参数和400亿参数两个版本,核心目标是学习生物复杂性的通用深度表征,从而实现对遗传中心法则(DNA、RNA、蛋白质)所有模式、跨越分子到基因组尺度、并能泛化于所有生命领域的预测与设计任务。
Evo 2架构、训练与数据
Evo 2使用名为StripedHyena 2的卷积混合架构,该架构结合了三种输入依赖的卷积算子变体和注意力机制,在短序列和长序列上都提高了训练效率,其吞吐量在400亿参数、百万上下文长度下可比高度优化的Transformer基线快3倍。模型训练分为两个阶段:第一阶段为预训练,使用8,192个标记的上下文长度,数据加权侧重于基因窗口,以学习功能性遗传元件;第二阶段为中期训练,将上下文长度扩展到100万个标记,以学习长基因组距离上元件间的关系。训练数据集OpenGenome2包含了超过8.8万亿个核苷酸的细菌、古菌、真核生物和噬菌体序列。为了生物安全目的,模型训练排除了感染真核宿主的病毒基因组序列,这导致模型在真核病毒序列上表现不佳,从而削弱了其在该领域的建模和生成能力。
Evo 2学习进化约束
Evo 2通过学习跨物种序列的似然性,捕获了反映功能重要性的保守序列模式。研究表明,Evo 2的零样本似然预测能够捕捉核心生物学原理,例如,在翻译起始密码子周围的单核苷酸变异会显著影响模型似然值,并呈现出与Shine–Dalgarno序列(原核生物)和Kozak序列(真核生物)一致的模式。模型还能区分非同义突变、提前终止密码子和移码突变与同义突变之间的效应差异,并识别出不同物种间(如标准密码子、支原体密码子和纤毛虫密码子)的终止密码子使用差异。在蛋白质和非编码RNA的深度突变扫描评估中,Evo 2的序列似然性与多种功能定义下的适应性(fitness)具有相关性。此外,利用Evo 2 7B的基础嵌入训练轻量级分类器,可以在单核苷酸分辨率下准确识别外显子-内含子结构,在八个未参与训练的不同物种上,曲线下面积可达0.91至0.99,表现优于其他基因组语言模型和从头预测工具AUGUSTUS。Evo 2还能通过零样本似然性,有效预测细菌、古菌和噬菌体中的基因必需性。
人类变体效应预测
Evo 2在人类临床和实验确定的变体效应预测方面表现出色,特别是在非单核苷酸变异(如插入、缺失、重复)的预测上超越了现有方法。在ClinVar数据库中,对于编码区非SNV变体,Evo 2的两个版本均优于所有其他方法;对于非编码区SNV,Evo 2 40B在无监督模型中排名第一。在评估剪接变体效应的SpliceVarDB数据库中,Evo 2在内含子和外显子变体上的表现均位居无监督模型之首。针对BRCA1基因的饱和诱变数据集,Evo 2在编码和非编码SNV的零样本预测中都展现了强大性能。更有前景的是,利用Evo 2 40B的嵌入训练简单的监督分类器(如岭回归模型),可以显著提升对BRCA1功能丧失性变体的分类效果,测试集AUROC达到0.95。这表明Evo 2的表示可以作为下游特定任务模型的有力基础。不过,在预测远端调控序列的染色质可及性定量性状位点等任务上,Evo 2的性能仍落后于专门训练的序列到功能模型。
Evo 2中的特征解读
通过应用稀疏自编码器对Evo 2的内部表示进行机械可解释性分析,研究人员在不依赖任何先验生物学标注的情况下,发现了大量与可解释生物概念相对应的潜在维度(特征)。这些特征涵盖了从原核生物移动遗传元件(如原噬菌体、CRISPR阵列间隔序列)到真核生物调控基序的广泛生物信号。例如,一个特征与原噬菌体区域高度相关,另一个特征在人类基因组中优先在移码突变和提前终止密码子处激活。模型还学到了与开放阅读框、内含子、外显子边界、tRNA、rRNA以及蛋白质二级结构(如α-螺旋、β-折叠)相关的特征。特别值得注意的是,模型学习到的与外显子-内含子结构相关的特征,可以迁移并成功注释猛犸象基因组中的基因区域,展示了其跨物种的特征泛化能力。
基因组尺度生成
Evo 2不仅是预测模型,也是一个强大的生成模型。它能够响应基因组提示,完成基因序列,并在跨古菌、原核生物和多种真核生物谱系的物种中实现高氨基酸序列恢复率。更重要的是,Evo 2能够生成整个细胞器、原核生物和真核生物染色体尺度的DNA序列。当以人类线粒体DNA片段为提示时,Evo 2生成的16kb序列在线粒体基因数量、tRNA和rRNA基因数目以及编码序列的共线性方面,都与天然人类线粒体基因组高度相似。生成长度约580kb的生殖支原体(M. genitalium)基因组时,生成的序列中近70%的预测基因具有显著的Pfam结构域匹配,其蛋白质长度和二级结构分布也与天然基因组相似。在酿酒酵母染色体III的生成任务中,Evo 2能够生成包含tRNA、启动子和内含子结构的基因序列。这些生成序列在多项计算机评估指标上表现出与天然基因组的相似性,但需注意,这些评估并不保证生成序列在细胞中具备功能。
设计哺乳动物染色质模式
通过推理时引导,Evo 2可以与染色质可及性预测模型(如Enformer和Borzoi)结合,实现染色质可及性模式的可控设计。研究采用波束搜索策略,在Evo 2自回归生成DNA片段(每次128bp)后,利用预测模型对生成片段的染色质可及性进行评分,筛选出最符合目标模式的片段进行后续生成。增加波束搜索宽度(即增加推理时计算量)可显著提高设计质量。研究人员设计了包含特定开放/封闭染色质区域的序列,甚至将模式编码为莫尔斯电码(“EVO2”、“LO”、“ARC”)写入染色质可及性信号中。实验验证表明,这些设计序列在整合到小鼠胚胎干细胞后,其ATAC-seq测得的染色质可及性模式与预测高度吻合(AUROC 0.92-0.95)。与使用均匀或二元语法等简单提议方案相比,Evo 2的提议能够产生更自然的序列(如更接近天然的二核苷酸频率),并且多个预测模型对其预测结果更一致,这可能减少了对抗性样本的产生。在人类HEK293T和K562细胞系中进行的进一步实验也证实,该方法能够成功设计具有特定或细胞类型特异性染色质可及性模式的序列。
讨论
Evo 2代表了在生命全领域实现通用预测和设计能力的基因组语言模型的一个重要里程碑。其开发涉及机器学习研究、工程、数据整理和评估的大量投入。研究团队以开源许可证发布了包括模型参数、分布式训练代码、多GPU推理代码以及完整的OpenGenome2训练数据集在内的多项资源。考虑到生物技术的安全性,团队在开源前通过数据排除(如真核感染病毒序列)、安全评估和群体偏倚评估等方式,主动评估并降低了潜在风险。模型在人类病毒相关任务上的表现被有效削弱,并显示出减少了祖先群体预测偏见的潜力。Evo 2为未来工作奠定了强大基础,结合群体基因组变异数据或序列到功能实验数据,有望实现更广泛的下游任务。通过与大规模DNA操纵技术结合,该系列模型有望推动更复杂生物功能的程序化设计。

生物通微信公众号
微信
新浪微博


生物通 版权所有