利用基于变压器的深度学习架构中对基因组序列的自适应分词方法，实现鲁棒且具有泛化能力的miRNA家族分类

时间：2026年3月15日

来源：Biocybernetics and Biomedical Engineering

编辑推荐：

本研究提出BioBPE，一种基于生物保守结构的分词方法，用于miRNA序列分类。通过对比六种Transformer模型在五种分词策略下的表现，发现BioBPE在分类准确率和收敛速度上提升显著，平均保留92%的保守结构，证明分词策略对模型性能至关重要。

AtheroPoint LLC的卒中监测与诊断部门，美国加利福尼亚州罗斯维尔，邮编95661

摘要

背景与动机

微小RNA（miRNA）调节基因表达，在疾病的发展和进展中起着关键作用。由于miRNA长度较短、具有保守的序列基序以及物种间的差异性，准确的miRNA序列分类仍然是一个挑战。尽管变换器模型显示出潜力，但它们通常依赖于通用的分词器（例如k-mer、BPE），这些分词器会破坏生物学上有意义的序列片段。

方法

我们提出了GenAI 4.0，它实现了一种名为BioBPE的新技术，这是一种基于生物学的Byte-Pair Encoding扩展方法，在构建词汇表时优先保留保守的miRNA基序。与仅基于频率的分词方法不同，BioBPE在合并评分过程中引入了特定领域的权重函数，以使分词过程与生物学信号保持一致。为了评估其有效性，我们在六种变换器模型上使用了五种不同的分词方法进行了全面的基准测试。实验数据来自MirGeneDB v3.0的二元和多类分类数据集。

结果

使用BioBPE分词后的模型在分类准确率上提高了高达8.6%，并且收敛速度比标准分词方法快约18-45%。统计测试（配对t检验、Wilcoxon检验）证实了这一效果，BioBPE在各种词汇表大小下平均保留了约92%的基序信息。

结论

我们的研究结果表明，分词是生物序列分类任务成功的关键因素，而不仅仅是一个预处理步骤。通过将分词边界与生物学结构明确对齐，BioBPE弥合了通用自然语言处理（NLP）分词器与特定领域序列建模之间的差距。

引言

微小RNA（miRNA）是长度约为20-25个核苷酸的短链非编码RNA，它们通过与目标mRNA上的互补区域结合来在转录后调节基因表达[1]。这些分子在细胞分化、凋亡和增殖等基本过程中起着关键作用[2]，并与多种疾病（包括癌症、心血管疾病和神经退行性疾病）有关[3]。因此，按物种、进化家族或病理相关性准确分类miRNA在计算生物学中是一项重要任务[4]，这对诊断、药物靶点和比较基因组学具有重要意义[5]。

早期的miRNA分类计算方法主要依赖于传统的机器学习方法，这些方法需要从序列组成、热稳定性及结构基序中手工提取大量特征[6]。尽管这些方法具有可解释性，但由于物种间的进化差异，它们往往难以在不同物种间泛化。为了解决这个问题，研究人员转向了深度学习（DL）架构，如卷积神经网络（CNN）和循环神经网络（RNN），这些网络可以直接从原始序列中使用one-hot或k-mer分词方法学习局部和序列模式。CNN在检测局部基序方面取得了成功，而LSTM和BiGRU等循环模型则能够捕捉更长的核苷酸依赖关系[7]。结合CNN和RNN的混合模型通过利用空间和序列信息进一步提高了分类准确性[8]。然而，这些深度模型仍然依赖于静态编码方案，并且需要大规模、多样化的训练数据集才能实现稳健的泛化[9]。

在此基础上，基于注意力机制的网络引入了动态加权序列组分的概念[10]。这些模型提高了对区分性基序的关注度，并增强了可解释性。基于图的框架也成功地应用于通过利用分子属性和生物网络来改进circRNA-miRNA相互作用预测[11]。然而，它们仍然需要单独的特征提取模块，并且不适用于大规模多物种数据集。 transformer架构的出现是一个突破，特别是那些从NLP领域改编而来的模型，如BERT[12]、RoBERTa[13]和DNABERT[14]，它们引入了自注意力机制，能够在无需特征工程的情况下捕捉序列数据中的局部和全局依赖关系。这些架构显著提高了序列分类任务的性能和泛化能力。

尽管取得了这些进展，但在这一建模流程中仍有一个关键且未被充分探索的组成部分：分词——即将原始核苷酸序列转换为模型可以嵌入和处理的离散标记的过程[15]。分词策略定义了生物语言模型的“词汇表”[16]，并决定了生物学上有意义的模式（如保守基序或序列冗余）的保留程度[17]。常用的分词策略包括one-hot编码（简单但稀疏）、k-mer编码（捕获局部模式但长度固定）[18]，以及基于频率但生物学上中立的subword分词器（如BPE和Unigram）[19]。

在这项研究中，我们假设分词不仅仅是一个预处理步骤，而是模型性能的核心决定因素，尤其是在像miRNA这样富含基序且长度较短的序列中。我们介绍了BioBPE，这是一种基于生物学的Byte-Pair Encoding变体，旨在在压缩冗余核苷酸子串的同时保留保守的基序。通过优化词汇表以反映生物学上频繁出现的单元，BioBPE使变换器模型能够更好地与miRNA序列的语义结构对齐。为了评估BioBPE的效果，我们将其与其他四种分词器（one-hot、k-mer、Unigram和标准BPE）在六种变换器模型（BERT（基础版本）、RoBERTa（基础版本）、Longformer（基础版本）、DeBERTa（v2基础版本）、DistilBERT和Performer）上进行了基准测试。使用包含114个物种和6000多个miRNA家族的超过20,000个成熟miRNA序列的MirGeneDB v3.0数据集，我们进行了二元（保守与非保守）和多类（前50个家族）分类任务。我们还分析了收敛动态、词汇表大小和训练稳定性，以分离分词的效果。

图1展示了提出的GeneAI 4.0框架用于miRNA序列分类的总体流程。系统从MirGeneDB中精选的成熟miRNA序列开始，这些序列经过严格的质量控制，包括数据清洗、嵌入和五种不同的分词策略。然后，这些处理后的输入在六个基于变换器的模型中进行评估。预测标签在性能评估模块中进行评估，该模块包括收敛性分析、计算成本分析、可靠性指标和真实值基准测试。这种模块化架构允许系统地对分词器和模型在生物学保守分类任务上进行基准测试。

本文的其余部分组织如下：第2节回顾了miRNA分类和相关分词策略的研究工作。第3节描述了材料和方法，包括数据集组成、预处理协议、分词方法、变换器架构和优化配置。第4节展示了在各种分词器和模型上的实验结果。第5节进行了深入的性能评估（PE），包括条形图可视化和统计显著性测试（例如配对t检验），特别强调了BioBPE的贡献。第6节总结了研究的主要发现，讨论了它们的生物学意义，并指出了未来在考虑分词特征的序列建模方面的研究方向。最后，第7节总结了我们的研究。

基于变换器的模型在生物序列建模方面取得了显著进展，但分词仍然是一个可能决定性能成败的关键设计因素。Ji等人引入了DNABERT[14]，它将BERT风格的变换器适配到DNA上，使用重叠的k-mer创建了一个固定长度的词汇表。这种方法对于基本分类和基序发现任务非常有效。

方法论

本节详细介绍了GeneAI 4.0的完整设计和架构。我们首先介绍了使用的数据并准备了实验数据集。然后讨论了BioBPE分词器，并将其与四种基线策略进行了比较。接下来，我们描述了用于评估的六种变换器架构、训练流程和性能指标。每个组成部分都旨在严格测试分词对下游分类性能的影响。

结果

为了严格评估所提出的BioBPE分词器在各种学习配置下的表现，我们进行了一系列实验，涉及六种基于变换器的模型（BERT、RoBERTa、Longformer、DeBERTa、DistilBERT和Performer）和五种分词策略（One-hot、Standard BPE、Unigram和BioBPE）。实验包括二元（保守与非保守）和多类（前50个miRNA家族）分类任务。

性能评估

我们使用条形图、方差比较和收敛稳定性指标来可视化和解释结果。该部分将模型输出与生物学背景联系起来，特别关注特定家族的标记保留和分类模式。统计测试进一步验证了结果的稳健性。

主要发现

在这项研究中，我们展示了我们提出的BioBPE框架的主要发现，该框架评估了基于生物学的分词对miRNA序列分类的影响。（I）我们系统地将BioBPE与四种广泛使用的分词策略进行了基准测试：One-hot、k-mer（k=3）、Unigram和Standard BPE，在六种变换器架构（BERT、RoBERTa、Longformer、DeBERTa、DistilBERT和Performer）上进行了评估。

结论

本研究表明，分词在miRNA序列分类中起着核心作用，显著影响了模型性能和生物学信号的保留。我们介绍了BioBPE，这是一种基于生物学的Byte Pair Encoding变体，它将基序保留整合到了标记合并过程中，从而使标记结构与功能性核苷酸模式保持一致。通过在对六种变换器和五种分词策略的广泛基准测试中，BioBPE

数据可用性声明

在本研究中生成的从MirGeneDB分词后的数据集由于其专有性质而不公开，但可根据合理请求向相应作者获取。

代码可用性声明：本研究中使用的代码由于其专有性质而不公开，但可根据合理请求向相应作者获取。

修订声明

本声明确认当前提交的是我们手稿的修订版本，已经解决了审稿人和编辑的所有反馈。

伦理批准

本研究没有涉及对人类参与者或动物的实验，因此不需要伦理批准。

CRediT作者贡献声明

Jaskaran Singh：撰写——原始草稿、软件开发、形式分析、概念构思。Narendra N. Khanna：方法论、形式分析、概念构思。Rajesh Singh：软件开发、方法论、概念构思。Laura E. Mantella：撰写——审稿与编辑、项目管理。Amer M. Johri：项目管理、形式分析。Gavino Faa：撰写——原始草稿、可视化、调查、概念构思。Ekta Tiwari：撰写——原始草稿、验证、资源整理，