Evo 2是一个基于人工智能的生物基础模型,在跨越生命所有领域(细菌、古菌、真核生物和噬菌体)的高度精选基因组图谱上,训练了9万亿个DNA碱基对,拥有100万个标记(token)的上下文窗口和单核苷酸分辨率。与先前模型相比,Evo 2在预测和设计能力上取得了显著进步。它包含70亿参数和400亿参数两个版本,核心目标是学习生物复杂性的通用深度表征,从而实现对遗传中心法则(DNA、RNA、蛋白质)所有模式、跨越分子到基因组尺度、并能泛化于所有生命领域的预测与设计任务。
Evo 2架构、训练与数据
Evo 2使用名为StripedHyena 2的卷积混合架构,该架构结合了三种输入依赖的卷积算子变体和注意力机制,在短序列和长序列上都提高了训练效率,其吞吐量在400亿参数、百万上下文长度下可比高度优化的Transformer基线快3倍。模型训练分为两个阶段:第一阶段为预训练,使用8,192个标记的上下文长度,数据加权侧重于基因窗口,以学习功能性遗传元件;第二阶段为中期训练,将上下文长度扩展到100万个标记,以学习长基因组距离上元件间的关系。训练数据集OpenGenome2包含了超过8.8万亿个核苷酸的细菌、古菌、真核生物和噬菌体序列。为了生物安全目的,模型训练排除了感染真核宿主的病毒基因组序列,这导致模型在真核病毒序列上表现不佳,从而削弱了其在该领域的建模和生成能力。
Evo 2学习进化约束
Evo 2通过学习跨物种序列的似然性,捕获了反映功能重要性的保守序列模式。研究表明,Evo 2的零样本似然预测能够捕捉核心生物学原理,例如,在翻译起始密码子周围的单核苷酸变异会显著影响模型似然值,并呈现出与Shine–Dalgarno序列(原核生物)和Kozak序列(真核生物)一致的模式。模型还能区分非同义突变、提前终止密码子和移码突变与同义突变之间的效应差异,并识别出不同物种间(如标准密码子、支原体密码子和纤毛虫密码子)的终止密码子使用差异。在蛋白质和非编码RNA的深度突变扫描评估中,Evo 2的序列似然性与多种功能定义下的适应性(fitness)具有相关性。此外,利用Evo 2 7B的基础嵌入训练轻量级分类器,可以在单核苷酸分辨率下准确识别外显子-内含子结构,在八个未参与训练的不同物种上,曲线下面积可达0.91至0.99,表现优于其他基因组语言模型和从头预测工具AUGUSTUS。Evo 2还能通过零样本似然性,有效预测细菌、古菌和噬菌体中的基因必需性。
Evo 2代表了在生命全领域实现通用预测和设计能力的基因组语言模型的一个重要里程碑。其开发涉及机器学习研究、工程、数据整理和评估的大量投入。研究团队以开源许可证发布了包括模型参数、分布式训练代码、多GPU推理代码以及完整的OpenGenome2训练数据集在内的多项资源。考虑到生物技术的安全性,团队在开源前通过数据排除(如真核感染病毒序列)、安全评估和群体偏倚评估等方式,主动评估并降低了潜在风险。模型在人类病毒相关任务上的表现被有效削弱,并显示出减少了祖先群体预测偏见的潜力。Evo 2为未来工作奠定了强大基础,结合群体基因组变异数据或序列到功能实验数据,有望实现更广泛的下游任务。通过与大规模DNA操纵技术结合,该系列模型有望推动更复杂生物功能的程序化设计。