在生命的宏伟蓝图中,DNA序列如何精确调控基因的表达,从而决定细胞的命运和功能,是一个长久以来的科学谜题。其中,增强子(enhancers)作为关键的顺式调控元件(cis-regulatory elements, CREs),扮演着“指挥家”的角色,通过整合特定的转录因子结合位点(transcription factor binding sites, TFBSs)的组合,构成了复杂的“增强子编码”(enhancer code),驱动了细胞的身份与功能。然而,这套编码逻辑具有高度的简并性(degenerate),即不同的TFBS组合可以产生相同的功能输出,这使得从序列中解读增强子功能变得异常困难。
近年来,基于序列的深度学习模型已成为解析基因组调控代码的利器,特别是在增强子研究领域。它们能够从海量的基因组学数据中学习并预测转录因子结合、染色质可及性、增强子活性乃至基因表达。单细胞转座酶可及染色质测序(single-cell assay for transposase-accessible chromatin using sequencing, scATAC-seq)技术的出现,为在异质细胞群体中研究细胞类型特异性的增强子功能提供了强大的工具。然而,尽管已有一些软件框架(如Selene、EUGENe、ChromBPNet、gReLU等)旨在简化数据处理、模型训练和序列设计流程,但它们往往并非专门为建模跨细胞类型的增强子编码而设计,缺乏对大规模、复杂scATAC-seq图谱的全面验证,也缺少深入的细胞类型特异性增强子编码分析工具。因此,开发一个集成的、用户友好的工具箱,用于高效建模、分析和设计跨组织和物种的细胞类型特异性增强子,成为了领域内亟待解决的问题。
为了应对这一挑战,一个国际研究团队开发了名为CREsted(cis -regulatory element sequence training, explanation and design)的软件包,并成功将其应用于多个生物系统。相关研究成果已发表在《Nature Methods》期刊上。该研究团队主要利用了深度学习建模、单细胞ATAC测序(scATAC-seq)数据分析、染色质免疫沉淀测序(ChIP-seq)验证、以及斑马鱼胚胎体内报告基因检测等关键技术方法。研究数据来源于多个已发表的公共数据集,包括小鼠运动皮层、人外周血单核细胞、人类癌症细胞系、胶质母细胞瘤患者活检样本以及斑马鱼发育图谱。
研究结果
CREsted是一个用于高效增强子建模和设计的软件包
CREsted包含四个核心模块:数据预处理、模型训练、细胞类型特异性增强子编码解释和合成增强子设计。预处理模块基于成熟的scATAC-seq分析流程(如ArchR、SCENIC+、SnapATAC2),提供主题建模(topic modeling)和伪批量峰(pseudobulk peak)聚合两种模式,并采用基于组成型峰(constitutive peaks)的缩放方法校正了计数标准化带来的偏差。训练模块支持多输出回归(multi-output regression)和多标签分类(multi-label classification),采用先训练所有共有峰、再对细胞类型特异性峰进行微调的两步策略,并提供多种经过验证的神经网络架构(如Basset、DanQ)。解释模块利用基于梯度的方法和离体诱变(in silico mutagenesis, ISM)进行核苷酸级重要性评分,并通过tfmodisco-lite和tangermeme工具识别细胞类型特异性TFBS模式,再结合单细胞RNA测序数据匹配候选转录因子。设计模块则提供基于离体进化(in silico evolution, ISE)或TFBS实例优化植入的方法来生成合成增强子序列,并引入了新的基于L2距离的成本函数以确保细胞类型特异性。
CREsted为小鼠皮层细胞类型的增强子编码提供了详细见解
研究人员首先在一个已用于体内增强子活性预测基准测试的小鼠运动皮层scATAC-seq数据集上应用了CREsted。他们训练了一个名为DeepBICCN2的峰回归模型,该模型在测试集上表现出色(斯皮尔曼相关系数ρ=0.79,皮尔逊相关系数r=0.82),并且其预测准确性在细胞类型特异性测试峰上显著优于使用gReLU框架训练的模型。DeepBICCN2不仅能很好地泛化到未见过的基因组区域,还能对另一个物种(鸡)的基因座进行跨物种评分。通过对171个体内验证的细胞类型特异性增强子进行评分,DeepBICCN2表现出良好的分类性能。进一步,通过分析贡献分数,研究识别了关键的TFBS模式,并发现这些模式能清楚地将非神经元细胞、谷氨酸能神经元和GABA能神经元区分开来。研究还鉴定出了一些已知的细胞类型特异性因子,如深层谷氨酸能神经元中的TBR1和NFI,少突胶质细胞中的SOX10和CREB5,以及小胶质细胞中的SPI1、IRF和MAFB。特别地,他们在SstChodl细胞中发现了一个独特的E-box基序(CAGGTG),将其突变为更经典的CAGCTG形式会改变增强子的预测活性,这凸显了CREsted模型在解析单核苷酸变异对TFBS功能影响方面的高分辨率。
CREsted人类PBMC模型捕获了已验证的TFBSs
为了展示CREsted在其他组织和物种中的适用性,研究人员训练了一个名为DeepPBMC的人外周血单核细胞(PBMC)峰回归模型。该模型在细胞类型特异性区域上的预测分数能够清晰地区分不同细胞类型。研究人员评估了DeepPBMC在几个经典增强子上的解释能力:在B细胞的CD79A 增强子和T细胞的TCRα 增强子中,模型成功恢复了所有先前实验验证的TFBSs,并额外识别出了一些潜在的结合位点。在更为复杂的树突状细胞特异性IFNB1 增强体(enhanceosome)上,DeepPBMC解析了其大部分复杂结构,仅遗漏了少数TFBSs。通过全局模式聚类分析,研究恢复了已知的关键细胞类型特异性TF的基序,如B细胞中的EBF1、PAX5,T细胞中的ETS1、RUNX1,以及单核细胞中的CEBPA、SPI1。利用公开的染色质免疫沉淀测序(ChIP-seq)数据和UniBind预测的直接结合位点进行验证,表明CREsted识别的TFBS具有很高的生物学相关性。此外,通过模拟EBF1转录因子降解对小鼠Tcf3 基因座染色质可及性的影响,并与真实的蛋白质降解后scATAC-seq数据对比,进一步证实了模型预测的TFBS的功能重要性。
CREsted识别了癌症中MES样增强子编码的高度相似性
研究人员利用CREsted比较了黑色素瘤和胶质母细胞瘤(GBM)中的间充质样(mesenchymal-like, MES)细胞状态。他们训练了一个名为DeepCCL的峰回归模型,该模型能够将跨癌种的MES样状态分组,并部分区分它们。分析发现,黑色素瘤和GBM的MES样状态共享AP-1、TEAD、RUNX、NFI和ATF/CREB等TFBS的贡献。为了探究在细胞系中观察到的MES样程序是否也在肿瘤活检样本中活跃,研究人员在一个人类胶质瘤scATAC-seq数据集上训练了一个名为DeepGlioma的CREsted主题分类模型。通过比较细胞系模型和活检模型在贡献分数上的相关性,发现活检主题8与MES样癌症细胞系的相关性最强。值得注意的是,与直接使用预测分数相比,使用贡献分数相关性进行比较可以减少非序列介导的变化(如拷贝数变异)的影响。基序分析显示,AP-1和CREB/ATF基序在细胞系和活检的MES样状态中是共享的,而TEAD基序是细胞系特异的,SOX和RFX基序则是活检样本特异的。
CREsted训练的模型在细胞类型特异性染色质可及性预测上优于大型预训练模型
除了从头训练模型,CREsted也支持对Enformer、Borzoi等大型预训练模型进行迁移学习(transfer learning)。研究人员通过微调Borzoi模型来预测小鼠皮层的细胞类型水平染色质可及性。结果表明,从头训练的DeepBICCN2模型在性能上与经过微调的大型Borzoi模型相当,甚至在某些方面略有优势。在外部未见过的数据集上,微调后的Borzoi和DeepBICCN2都显著优于基础的Borzoi模型,后者在区分GABA能和谷氨酸能神经元亚类方面存在困难,并且在分类体内验证的小鼠皮层增强子方面表现更差。此外,研究还尝试微调了两种基因组语言模型(gLM)——HyenaDNA和Nucleotide Transformer,但其性能均不及微调Borzoi或从头训练CREsted模型。这些结果表明,针对特定数据集进行优化(无论是通过迁移学习还是从头训练)的模型,在高细胞类型分辨率任务上可以超越通用的大型预训练模型。
CREsted设计了在发育斑马鱼目标细胞类型中特异性活跃的增强子
为了评估CREsted在生物体水平设计细胞类型特异性增强子的能力,研究人员在一个包含20个发育阶段、639种细胞类型-时间点组合的斑马鱼胚胎scATAC-seq数据集上训练了名为DeepZebrafish的峰回归模型。该模型能准确预测54个已验证增强子的细胞类型特异性。随后,研究团队利用离体进化(ISE)和新的基于L2距离的成本函数,分别设计了针对内皮细胞以及两个密切相关的细胞类型——心肌细胞和体肌细胞的单靶向增强子。体内报告基因检测显示,所有为心肌或体肌细胞设计的增强子都在其靶细胞类型中表现出特异性活性,而为内皮细胞设计的三个增强子中也有一个表现出强特异性活性。此外,研究人员还成功设计了具有不同活性比例(1:1, 0.5:1, 1:0.5)的心肌/体肌双特异性增强子,尽管精确控制表达水平仍具有挑战性。对设计出的增强子进行基序分析,揭示了这些细胞类型共享(如MEF、TEAD、E-box)和特有(如心肌细胞中的GATA、NKX)的TFBS模式。
研究结论与讨论
CREsted的推出,为高通量识别和解析顺式调控元件这一长期挑战提供了强有力的解决方案。它将scATAC-seq数据预处理、深度学习建模、增强子编码解释和合成增强子设计集成于一个统一、用户友好的框架中,并与“scverse”单细胞组学分析生态系统兼容。本研究通过在小鼠皮层、人免疫细胞、癌症和发育斑马鱼等多个生物学体系中的应用,全面展示了CREsted的强大功能:能够高精度预测细胞类型特异性染色质可及性,甚至进行跨物种评分;能在核苷酸水平解析决定细胞类型特异性染色质可及性的因素,识别出经ChIP-seq数据验证的TFBSs,并将其与基因表达数据关联;能够处理大规模、包含众多细胞类型的scATAC-seq图谱;可以微调大型预训练模型用于新任务;并且最终能够设计出在整个生物体水平具有细胞类型特异性活性的合成增强子。
这些分析带来了诸多新见解:例如,揭示了小鼠皮层细胞类型在顺式调控水平的特异性调节因子;解析了人IFNB1 增强体密集包装的核苷酸贡献;发现了黑色素瘤和GBM的MES样状态间共享的调控因子;以及在斑马鱼中成功设计了共享大部分增强子编码但仍能编码细胞类型特异性活性的单靶向和双靶向增强子。这项工作标志着在解码复杂生物系统中增强子逻辑方面取得了重要进展,为未来的基因调控研究、合成生物学以及基于增强子的基因治疗策略开发奠定了坚实的技术基础。
打赏