随着基因组测序技术的飞速发展,科学家们获得了海量的基因组数据,然而基因注释这一关键环节却未能同步突破。传统基因注释工具如GeneMark-ES、AUGUSTUS等基于隐马尔可夫模型的方法,往往需要依赖RNA测序数据、同源蛋白信息等外部证据,且计算资源消耗大。特别是在缺乏实验数据的非模式物种中,注释质量参差不齐,甚至约76%的真核生物基因组组装缺乏任何注释,严重制约了比较基因组学和功能基因组学的研究进展。面对这一挑战,德国杜塞尔多夫大学、于利希研究中心等机构的研究团队在《Nature Methods》上发表了题为"Helixer: ab initio prediction of primary eukaryotic gene models combining deep learning and a hidden Markov model"的研究论文。该研究开发了一种基于深度学习的人工智能工具Helixer,能够仅凭基因组DNA序列实现高质量的真核生物基因注释,无需物种特异性训练或外部实验数据支持。研究团队采用端到端的深度学习架构,整合了卷积神经网络(CNN)和双向长短期记忆网络(bLSTM)的优势。卷积层负责捕捉局部序列模式如启动子、剪接位点等特征,而bLSTM则能够处理长距离依赖关系,有效识别基因结构的全局特征。模型同时预测每个碱基的基因类别(基因间区、UTR、CDS、内含子)和编码相位(0、1、2),最后通过专门开发的隐马尔可夫模型工具HelixerPost进行后处理,生成符合生物学规律的完整基因模型。