基于DNA基础模型的单核苷酸分辨率基因组注释方法SegmentNT

时间：2025年10月30日

来源：Nature Methods

编辑推荐：

本研究针对当前基因组注释工具存在元素类别特异性强、训练数据有限等挑战，提出了基于预训练DNA基础模型的多标签语义分割方法SegmentNT。通过微调Nucleotide Transformer等模型，实现了14种基因和调控元件的单核苷酸分辨率精准定位，在50 kb长序列中达到最先进性能。该框架支持多物种泛化，为基因组注释提供了高效通用解决方案。

在基因组学飞速发展的时代，准确解读DNA序列中蕴含的遗传信息已成为现代生物学研究的核心挑战。随着测序技术的突破性进展，科学家们面临着海量基因组数据的注释需求——如何快速精准地定位基因、外显子、启动子等功能元件，直接关系到对遗传架构的理解和疾病机制的解密。

传统基因组注释工具如BRAKER2和MAKER2通常依赖于隐马尔可夫模型（HMM）的从头序列预测，尽管具备单核苷酸分辨率，却存在明显局限性。这些工具往往需要整合实验数据（如RNA测序）和同源蛋白信息才能提高准确性，且主要专注于基因元件注释，难以有效识别调控区域。更关键的是，现有方法大多针对特定元素类别单独开发，在有限数据集上进行监督学习训练，导致其泛化能力受限，特别是在处理全新或代表性不足的基因组时表现不佳。

深度学习与基因组学的交叉正在彻底改变我们解读人类基因组信息的能力。DNA基础模型——这些参数达数亿至数十亿的大规模模型，在数千亿至数万亿标记的数据集上训练而成，能够解决数十至数百个任务——为基因组注释带来了新的希望。其中，自监督预训练的模型（如Nucleotide Transformer）尤其值得关注，它们能够在无标签数据（如原始基因组或实验测序数据）上训练，创建通用表征，类似于自然语言处理和计算机视觉领域的突破性进展。

在这项发表于《Nature Methods》的研究中，Bernardo P. de Almeida等研究人员开创性地将基因组注释问题构建为多标签语义分割任务，开发了SegmentNT模型。该方法巧妙借鉴了图像分割中定位像素级物体的思路，将DNA序列中的元素定位转化为核苷酸级的分割问题。

研究团队采用了几项关键技术方法：首先构建了包含14种人类基因组元件注释的数据集，源自GENCODE和ENCODE；其次开发了结合预训练DNA编码器（Nucleotide Transformer）与一维U-Net分割头的架构；还实现了基于RoPE的位置编码上下文长度扩展技术，使模型能处理最长50 kb的序列；此外整合了Enformer和Borzoi等长序列模型，将处理范围扩展至500 kb；最后通过多物种训练策略，在20个动植物物种上验证了模型的泛化能力。

SegmentNT：微调NT实现DNA序列的核苷酸分辨率分割

研究人员开发了名为SegmentNT的模型，通过多标签语义分割框架注释多种基因组元件的位置。该模型将预训练的DNA基础模型NT与分割头相结合，检测不同尺度的元件。分割头采用一维U-Net架构，对输入DNA序列的基础模型嵌入进行下采样和上采样。

训练数据显示，SegmentNT-3kb在将不同元件定位到核苷酸精度方面表现出高准确性，在外显子、剪接位点、3'UTR和组织不变启动子区域上的测试集MCC高于0.5。SegmentNT-10kb模型在10kb序列上表现出比3kb更优的性能，特别是对于蛋白质编码基因、3'UTRs、外显子和内含子，表明这些元件依赖更长的序列上下文。

使用预训练DNA编码器对高效训练和实现卓越性能至关重要

通过模型消融研究证明，使用NT预训练基础模型作为DNA编码器具有关键价值。与直接使用one-hot编码DNA序列的U-Net架构相比，SegmentNT-3kb的平均MCC达到0.37，显著高于随机初始化NT编码器版本（0.16）和纯监督CNN模型（如BPNet和SpliceAI）。这表明自监督预训练使模型收敛速度提高7倍，渐近性能提升2倍。

SegmentNT可泛化至最长50kb的序列

通过旋转位置嵌入（RoPE）的上下文长度扩展方法，研究人员成功训练了处理20kb和30kb序列的SegmentNT模型。性能评估显示，随着序列长度增加，模型性能持续提升，特别是在蛋白质编码基因、3'UTRs、外显子和内含子的分割方面。SegmentNT-30kb在所有元件上达到平均MCC 0.45的最佳性能。

有趣的是，使用上下文长度扩展后，SegmentNT-30kb在50kb输入序列上达到最佳性能（平均MCC 0.47），即使对100kb序列仍保持良好性能（0.45）。这意味着该模型单次处理50kb序列时可进行70万次预测，提供了极其丰富的分割输出。

使用不同基础模型作为DNA编码器将分割扩展至500kb序列

研究人员进一步将框架扩展到Enformer和Borzoi等长序列模型。比较结果显示，SegmentNT在30kb输入序列上平均MCC（0.45）优于SegmentEnformer（0.34）和SegmentBorzoi（0.35），但在调控元件分割方面，后两者表现出改进性能，反映了其监督预训练在表观基因组和转录组谱方面的优势。

当使用196kb和524kb的扩展输入序列时，SegmentEnformer和SegmentBorzoi均显示整体性能提升，特别是在识别蛋白质编码基因、lncRNA和内含子等较长元件方面。然而，它们的平均性能仍显著低于SegmentNT。

与成熟基因注释工具的比较

与最先进的HMM基因查找器AUGUSTUS相比，SegmentNT-30kb在主要异构体分割方面表现出竞争力，在剪接供体位点方面性能更优。当考虑所有置信基因异构体时，SegmentNT-30kb在所有基因元件的指标上均优于HMM模型。在全染色体测试集设置下，SegmentNT-30kb以较大优势超越AUGUSTUS，实现了更高的召回率和精确度。

SegmentNT在全基因组范围内准确预测剪接位点

与专门模型SpliceAI和Pangolin的比较显示，SegmentNT-30kb在mRNA基础测试集上达到相当性能：供体位点的auPRC为0.93对比0.94（SpliceAI）和0.92（Pangolin）。在SegmentNT全基因组测试集上，该模型在供体和受体位点上均显示更高的分类性能。

调控元件的定位

在启动子和增强子等调控元件检测方面，SegmentNT-30kb优于滑动窗口基线方法。特别是使用Enformer和Borzoi作为DNA编码器进一步提升了此任务性能，其中SegmentEnformer达到最高性能。这些分割模型的一次性预测特性使其在大型序列推理速度上具有显著优势。

SegmentNT跨物种泛化

评估显示，在人类基因组元件上训练的SegmentNT-30kb模型能够良好泛化到其他物种，特别是在外显子和剪接位点方面表现优异。性能与进化距离相关，与人类亲缘关系较近的物种（如大猩猩和猕猴）性能较好，而进化距离较远的动物和植物性能有所下降。

多物种SegmentNT模型显示改进的物种泛化能力

通过在全物种模型上微调人类SegmentNT-30kb模型，研究人员开发了SegmentNT-30kb-全物种版本。该模型在训练物种的测试染色体上表现出比人类SegmentNT-30kb模型更好的性能，表明基因元件在不同物种间确实存在差异，需要相应调整模型。

在未见过的动物物种上评估显示，全物种模型在人类近缘物种（平均MCC 0.64）和人类远缘物种（平均MCC 0.57）上均表现优异，较人类模型（0.49）有显著提升。令人惊讶的是，这个仅基于动物基因组训练的全物种模型，在植物物种基因组上也表现出强大的预测能力，平均MCC从0.34提升至0.45。

这项研究的意义在于首次证实DNA基础模型能够以单核苷酸分辨率解决基因组学中的复杂任务。SegmentNT的成功表明，结合预训练NT和分割U-Net头部的方案性能最优，为预训练模型在基因组学中的价值提供了有力证据。

当前DNA基础模型的主要限制是上下文长度有限，而本研究通过上下文长度外推方法成功将处理范围扩展至50kb，同时通过整合Enformer和Borzoi等长序列模型进一步扩展至524kb。随着自然语言处理领域长序列技术的不断发展，下一代模型有望实现更大突破。

值得注意的是，SegmentNT在专业化工具主导的多个领域（基因注释、剪接检测、调控元件预测）均达到或超越竞争对手水平，同时能够一次性解决所有任务。这种多功能性为基因组注释提供了统一框架。

在调控元件建模方面，本研究基于实验验证的基因组区域（ENCODE定义）而非直接预测生化标记（如染色质可及性），这种整合多个生化信号的方法可能更好地代表功能区分，并支持更好的跨物种泛化。

最重要的成果之一是证明了SegmentNT跨物种泛化能力，特别是全物种版本在未见过的动植物物种上的强大表现。这表明模型捕获的基因组元件序列要求具有普遍性，可以转化到不同领域，为注释特征较少物种的基因组提供了有力工具。

展望未来，SegmentNT框架可直接应用于多个方向：改进下游任务的DNA编码器表征、解释学习到的基因组编码信息、分析序列变异对各类基因组元件的影响、探索癌症基因组的大型结构变异，以及扩展到更多基因组注释或核苷酸级实验数据。增加SegmentNT预测的每个核苷酸通道数，纳入多实验和生物学过程数据，可能实现任务间迁移，最终推动对基因组编码理解的新突破。