Scooby:基于DNA序列的单细胞多组学基因组图谱建模新方法

时间:2025年10月23日
来源:Nature Methods

编辑推荐:

本研究针对单细胞多模态基因组数据分析的挑战,开发了scooby框架,能够从DNA序列直接预测单细胞分辨率的RNA测序覆盖度和染色质可及性图谱。该模型通过整合预训练的Borzoi模型与细胞特异性解码器,在单细胞水平准确捕捉基因表达调控的序列决定因素,为解析细胞异质性和动态过程提供了新工具。

广告
   X   

在基因组学研究领域,理解调控序列如何塑造单个细胞中的基因表达是一个根本性挑战。随着单细胞多组学技术的发展,研究人员现在能够同时获取同一细胞的转录组和表观基因组信息,这为构建能够捕捉基因表达多步骤调控的序列决定因素模型提供了前所未有的机会。然而,当前主要基于群体(bulk)组学数据开发的模型,往往无法充分捕捉单细胞多模态技术所揭示的细胞异质性和动态过程。
传统方法如seq2cells模型虽然尝试将Enformer这一先进的序列预测模型适配到单细胞基因表达计数预测,但仍存在明显局限性:仅能建模基因表达、依赖可能模糊的转录起始位点注释,且需要为每个细胞单独建模输出轨道,导致在大规模数据集上计算不可行。这些限制促使研究人员寻求更高效、更全面的解决方案。
在这一背景下,慕尼黑工业大学等机构的研究团队在《Nature Methods》上发表了题为"scooby: modeling multimodal genomic profiles from DNA sequence at single-cell resolution"的研究论文,介绍了一种能够从DNA序列联合建模单细胞ATAC-seq和RNA-seq基因组图谱的新框架。
关键技术方法
研究团队基于预训练的多组学图谱预测模型Borzoi,引入了两项关键创新:首先采用低秩自适应(LoRA)策略对序列嵌入进行微调,使模型能够捕捉与细胞状态相关的调控序列效应;其次设计轻量级解码器,利用细胞状态的低维多组学表示,以细胞特异性方式解码序列嵌入。该研究使用了10x单细胞多组学骨髓单核细胞数据集(NeurIPS数据集)、人类心脏类器官多组学数据集和OneK1K大规模单细胞eQTL资源等三类数据集进行模型训练和验证。
scooby实现单细胞分辨率的基因组图谱建模
scooby框架的核心在于将预训练的序列到图谱模型与细胞状态特异性解码器相结合。
研究人员通过低秩自适应技术微调Borzoi的序列嵌入,使其能够适应单细胞测序特性,如scRNA-seq中常见的3'覆盖偏差。模型采用轻量级解码器,利用Poisson-MultiVI衍生的低维多组学细胞状态表示,实现细胞特异性预测,避免了为每个细胞单独设置输出头带来的计算负担。
在骨髓造血细胞数据集上的评估显示,scooby能够准确预测单细胞基因表达和染色质可及性图谱。以SLC25A37基因座为例,模型不仅成功捕捉了红细胞前体细胞与巨核细胞-红细胞祖细胞之间的差异调控,还精确预测了scRNA-seq信号在转录本3'端的定位。
精确捕捉细胞类型特异性基因表达
scooby在预测训练中未见基因的细胞状态特异性表达水平方面表现出色,即使是对于小细胞群体也是如此。
研究人员通过将预测的scRNA-seq覆盖度在外显子区域进行聚合,生成基因表达计数矩阵。定量分析表明,scooby在各个细胞类型中预测基因表达的平均Pearson相关系数达到0.86,与原始Borzoi模型在群体RNA-seq数据上的表现相当。更重要的是,在扣除基因和细胞类型均值后,模型仍能捕捉到跨细胞类型基因表达生物变异的显著部分(Pearson相关系数0.54),明显优于seq2cells模型。
预测未见细胞的基因表达动态
scooby的一个显著优势在于其使用单细胞嵌入表示而非将每个细胞作为独立任务建模的设计,这使得模型能够推广到相似细胞状态下的未见细胞。研究人员通过保留正常红细胞进行验证,发现使用训练后投影到学习嵌入中的正常红细胞嵌入,预测准确性接近完整数据集训练的模型。
特别值得注意的是,scooby能够捕捉分化过程中连续基因表达变化。以红细胞分化过程中上调的hemogen(HEMGN)基因为例,即使是未在正常红细胞上训练的模型也能准确重现沿红细胞谱系的HEMGN表达动态,表明scooby适用于研究未见但相关的细胞状态和连续调控程序。
转录因子 motif 效应评分解析TF活性
为理解影响预测的序列决定因素,研究人员引入了转录因子 motif 效应评分,通过计算突变TF结合位点对预测基因表达的影响来量化TF重要性。
与chromVAR和scBasset等现有方法相比,scooby的TF motif效应评分与TF表达水平的相关性显著更好。令人惊讶的是,仅使用scRNA-seq数据训练的scooby模型产生的TF motif效应评分与使用scATAC-seq数据的替代方法相当或更好,表明scooby可能减轻TF活性推断对scATAC-seq数据的需求。
应用这一方法,研究人员成功重现了主要造血谱系细胞类型中已知motif的重要性,如GATA1 motif家族在红细胞前体细胞中的最高评分,EBF1 motif在B细胞中的活性等。此外,通过分别定义染色质可及性和基因表达上的TF motif效应评分,scooby能够解析motif对不同调控层的影响,如GATA1作为先锋因子先影响染色质可及性而后影响基因表达的模式。
鉴定细胞状态特异性TF靶基因
通过研究每个基因基础上的TF motif效应,scooby能够推断特定细胞状态下TF调控的靶基因。研究人员探索了三个关键红细胞调节因子GATA1、TAL1和KLF1的推定靶基因,发现这些基因整体上富集了与红细胞生成相关的Gene Ontology(GO)术语,与这些TF的已知功能一致。模型还重现了TAL1与GATA1协同结合的关系,以及不同TF组合控制的基因簇,如同时受GATA1和KLF1影响的铁离子稳态相关基因簇。
解析细胞类型内TF活性
scooby的能力不仅限于跨不同谱系的TF motif效应分析,还能解析限定细胞类型内的TF活性异质性。
在人类心脏类器官数据集中,研究人员重点分析了心周场祖细胞(JCF)的异质性。通过将scooby的TF motif效应评分与CellRank推导的转变概率相关联,独立鉴定了JCF谱系承诺的推定驱动因子,包括已知的心外膜命运因子(如FOS、EPAS1、TBX1)和心肌细胞命运调节因子(如GATA4、MSX1),展示了scooby在单细胞水平解析TF活性的潜力。
提升细胞类型特异性变异效应预测
准确预测遗传变异对细胞状态特异性基因表达的调控影响是基因组学的重要挑战。研究人员利用OneK1K队列的大规模单细胞eQTL资源评估scooby预测细胞类型特异性eQTL效应的能力。
结果显示,scooby在GTEx全血eQTL上的表现接近Borzoi,但在OneK1K队列的所有细胞类型上显著优于Borzoi。与seq2cells相比,scooby在共同变异-基因子集上也有显著改进。重要的是,当scooby预测非微小效应时,大多数预测具有正确符号(符号一致性91.6%),且这种一致性不依赖于与转录起始位点(TSS)的距离。
解析群体eQTL的细胞类型特异性
scooby不仅能验证已知的细胞类型特异性eQTL,还能在缺乏细胞类型特异性真实数据的情况下解析群体eQTL效应。
研究人员应用在NeurIPS骨髓数据集上训练的scooby模型对GTEx全血eQTL效应进行解卷积,发现红细胞、单核细胞和早期祖细胞类型各自显示不同的预测eQTL效应。通过将细胞类型特异性效应与GWAS Catalog中的性状关联进行比对,发现多个案例中预测的细胞类型特异性效应与相关GWAS性状的生物学一致,如SLC14A1 eQTL在红细胞谱系中的强效应与"网织红细胞未成熟分数"性状的关联。
研究结论与意义
scooby框架建立了连接单细胞基因组学与序列到功能建模的新范式,通过整合预训练的多组学图谱预测器Borzoi与细胞特异性解码器,实现了从半兆碱基序列上下文直接建模单细胞基因表达和染色质可及性图谱,且计算效率随细胞数量可扩展。
该研究展示了scooby在多个方面的优势:将单细胞基因表达预测的Pearson相关系数从0.77提升至0.87;通过计算机motif突变产生的TF motif效应评分与TF表达水平高度一致;能够解析看似同质细胞群体内的调控机制;结合解释方法可实现更精细的变异效应分析,发现群体研究中被掩盖的细胞类型特异性eQTL及其潜在TF。
scooby的模块化性质和整合多模态数据、捕捉细胞状态特异性基因表达动态的能力,使其成为在单细胞分辨率下揭示基因调控和复杂性状遗传基础的有价值工具。随着单细胞图谱数据的不断积累,scooby有望助力大规模单细胞图谱的解读,并通过整合多物种数据集促进保守细胞类型特异性调控的研究。

生物通微信公众号
微信
新浪微博


生物通 版权所有