微小RNA(miRNA)是长度约为20-25个核苷酸的短链非编码RNA,它们通过与目标mRNA上的互补区域结合来在转录后调节基因表达[1]。这些分子在细胞分化、凋亡和增殖等基本过程中起着关键作用[2],并与多种疾病(包括癌症、心血管疾病和神经退行性疾病)有关[3]。因此,按物种、进化家族或病理相关性准确分类miRNA在计算生物学中是一项重要任务[4],这对诊断、药物靶点和比较基因组学具有重要意义[5]。
早期的miRNA分类计算方法主要依赖于传统的机器学习方法,这些方法需要从序列组成、热稳定性及结构基序中手工提取大量特征[6]。尽管这些方法具有可解释性,但由于物种间的进化差异,它们往往难以在不同物种间泛化。为了解决这个问题,研究人员转向了深度学习(DL)架构,如卷积神经网络(CNN)和循环神经网络(RNN),这些网络可以直接从原始序列中使用one-hot或k-mer分词方法学习局部和序列模式。CNN在检测局部基序方面取得了成功,而LSTM和BiGRU等循环模型则能够捕捉更长的核苷酸依赖关系[7]。结合CNN和RNN的混合模型通过利用空间和序列信息进一步提高了分类准确性[8]。然而,这些深度模型仍然依赖于静态编码方案,并且需要大规模、多样化的训练数据集才能实现稳健的泛化[9]。
在此基础上,基于注意力机制的网络引入了动态加权序列组分的概念[10]。这些模型提高了对区分性基序的关注度,并增强了可解释性。基于图的框架也成功地应用于通过利用分子属性和生物网络来改进circRNA-miRNA相互作用预测[11]。然而,它们仍然需要单独的特征提取模块,并且不适用于大规模多物种数据集。 transformer架构的出现是一个突破,特别是那些从NLP领域改编而来的模型,如BERT[12]、RoBERTa[13]和DNABERT[14],它们引入了自注意力机制,能够在无需特征工程的情况下捕捉序列数据中的局部和全局依赖关系。这些架构显著提高了序列分类任务的性能和泛化能力。
尽管取得了这些进展,但在这一建模流程中仍有一个关键且未被充分探索的组成部分:分词——即将原始核苷酸序列转换为模型可以嵌入和处理的离散标记的过程[15]。分词策略定义了生物语言模型的“词汇表”[16],并决定了生物学上有意义的模式(如保守基序或序列冗余)的保留程度[17]。常用的分词策略包括one-hot编码(简单但稀疏)、k-mer编码(捕获局部模式但长度固定)[18],以及基于频率但生物学上中立的subword分词器(如BPE和Unigram)[19]。
在这项研究中,我们假设分词不仅仅是一个预处理步骤,而是模型性能的核心决定因素,尤其是在像miRNA这样富含基序且长度较短的序列中。我们介绍了BioBPE,这是一种基于生物学的Byte-Pair Encoding变体,旨在在压缩冗余核苷酸子串的同时保留保守的基序。通过优化词汇表以反映生物学上频繁出现的单元,BioBPE使变换器模型能够更好地与miRNA序列的语义结构对齐。为了评估BioBPE的效果,我们将其与其他四种分词器(one-hot、k-mer、Unigram和标准BPE)在六种变换器模型(BERT(基础版本)、RoBERTa(基础版本)、Longformer(基础版本)、DeBERTa(v2基础版本)、DistilBERT和Performer)上进行了基准测试。使用包含114个物种和6000多个miRNA家族的超过20,000个成熟miRNA序列的MirGeneDB v3.0数据集,我们进行了二元(保守与非保守)和多类(前50个家族)分类任务。我们还分析了收敛动态、词汇表大小和训练稳定性,以分离分词的效果。
图1展示了提出的GeneAI 4.0框架用于miRNA序列分类的总体流程。系统从MirGeneDB中精选的成熟miRNA序列开始,这些序列经过严格的质量控制,包括数据清洗、嵌入和五种不同的分词策略。然后,这些处理后的输入在六个基于变换器的模型中进行评估。预测标签在性能评估模块中进行评估,该模块包括收敛性分析、计算成本分析、可靠性指标和真实值基准测试。这种模块化架构允许系统地对分词器和模型在生物学保守分类任务上进行基准测试。
本文的其余部分组织如下:第2节回顾了miRNA分类和相关分词策略的研究工作。第3节描述了材料和方法,包括数据集组成、预处理协议、分词方法、变换器架构和优化配置。第4节展示了在各种分词器和模型上的实验结果。第5节进行了深入的性能评估(PE),包括条形图可视化和统计显著性测试(例如配对t检验),特别强调了BioBPE的贡献。第6节总结了研究的主要发现,讨论了它们的生物学意义,并指出了未来在考虑分词特征的序列建模方面的研究方向。最后,第7节总结了我们的研究。