深度学习序列模型在转录调控解码中的突破与应用

时间:2025年8月13日
来源:Annual Review of Genomics and Human Genetics

编辑推荐:

这篇综述系统阐述了深度学习(DL)在解析转录调控机制中的前沿进展,重点介绍了基于卷积神经网络(CNN)和Transformer的序列模型如何预测表观遗传标记(如ChIP-seq、ATAC-seq)、基因表达(如CAGE、RNA-seq)和3D基因组结构(如Hi-C)。文章强调模型可解释性方法(如in silico mutagenesis、saliency map)对揭示调控密码的贡献,并探讨了跨组织/细胞类型特异性预测、非编码变异功能注释的临床应用,为精准医学提供新范式。

广告
   X   

1. 引言

基因表达的精准调控是维持细胞身份和功能的核心,但调控机制主要隐藏在非编码DNA中。全基因组关联研究(GWAS)显示,约90%疾病相关变异位于非编码区,其功能解析成为人类遗传学的关键挑战。近年来,高通量表观遗传检测技术(如ENCODE、Roadmap Epigenomics)产生了海量数据,为深度学习模型建立序列-功能映射奠定了基础。这些模型能预测任何非编码变异(包括罕见变异)对染色质状态、基因表达和三维结构的影响,弥补了传统实验和数量遗传学研究的局限性。

2. 深度学习序列建模基础

DNA序列通常被独热编码(one-hot encoding)为四维向量,通过染色体划分策略(如留出chr8-10)确保模型泛化性。当前主流架构包括:

  • 卷积神经网络(CNN):通过多层滤波器捕获序列motif及其空间层级关系,如DeepSEA、Basset等早期模型采用1D-CNN预测TF结合和染色质可及性。

  • Transformer:利用自注意力机制建模长程相互作用(>200kb),如Enformer整合CNN局部特征提取与Transformer全局交互,显著提升增强子-启动子互作预测精度。

3. 表观遗传标记预测

从DeepSEA(919种表观标记)到Sei框架(21,907种标记),模型规模随数据增长而扩展。Sei通过残差CNN架构不仅预测变异对特定细胞类型中TF结合的扰动,还定义了"序列类别"——数据驱动的调控活动词典(如脑特异性增强子)。DNABERT等Transformer模型通过k-mer掩码预训练策略,在染色质特征预测中展现出与CNN相当的性能。跨细胞类型插补模型(如ChromDragoNN)进一步整合trans调控因子表达数据,实现未见细胞状态的预测。

4. 基因表达预测的三类策略

  • 模块化框架:ExPecto先通过DeepSEA预测染色质状态,再用线性模型关联到GTEx组织表达数据;其单细胞版本ExPectoSC可解析原发性细胞类型的调控网络。

  • 多任务学习:Basenji系列(131kb输入)和Enformer(200kb)同时预测CAGE峰和表观标记,后者因注意力机制捕获远端调控而表现更优。

  • 纯序列模型:Xpresso仅用10.5kb启动子序列预测表达,但性能低于整合表观数据的模型,印证染色质状态的关键中介作用。

5. 3D基因组预测的尺度突破

早期方法(如PEP)仅分析短序列对,而Akita(1Mb输入)和Orca(全染色体尺度)通过多尺度架构实现TAD边界到染色质区室(compartment A/B)的跨层级预测。Orca采用"水平检查点"技术降低内存消耗,其预测的白血病结构变异(SV)效应与实验数据高度一致。虚拟筛选发现:compartment A形成依赖TSS短序列,而compartment B可由>10kb无特异模式的序列驱动。

6. 模型可解释性技术

  • 扰动传播:DeepSEA通过单碱基突变(in silico mutagenesis)量化SNP对表观标记的影响。

  • 卷积核分析:Basset将第一层滤波器转化为PWM,识别出DNase超敏感位点的核心motif。

  • 梯度反向传播:Basenji的saliency map精确定位调控元件,集成梯度法(如DeepLIFT)改进对TF结合位点的敏感性。

  • 注意力机制:TBiNet通过权重排序揭示TF结合偏好,但需注意训练随机性的干扰。

7. 未来展望

基础模型(foundation model)范式正在兴起,如DNABERT通过k-mer掩码预训练实现多任务迁移学习。跨物种训练(如Basenji2整合人类和小鼠数据)可增强进化保守位点识别。亟待建立的标准包括:基于单细胞多组学的个性化基因组预测基准、调控变异致病性数据库,以及整合转录后调控(如DeepBind预测RNA结合蛋白效应)的全基因组解读框架。随着实验技术进步和模型架构创新,深度学习将逐步实现从序列到调控机制的端到端解密,推动精准医学发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有