在基因组学研究领域,理解调控序列如何塑造单个细胞中的基因表达是一个根本性挑战。随着单细胞多组学技术的发展,研究人员现在能够同时获取同一细胞的转录组和表观基因组信息,这为构建能够捕捉基因表达多步骤调控的序列决定因素模型提供了前所未有的机会。然而,当前主要基于群体(bulk)组学数据开发的模型,往往无法充分捕捉单细胞多模态技术所揭示的细胞异质性和动态过程。传统方法如seq2cells模型虽然尝试将Enformer这一先进的序列预测模型适配到单细胞基因表达计数预测,但仍存在明显局限性:仅能建模基因表达、依赖可能模糊的转录起始位点注释,且需要为每个细胞单独建模输出轨道,导致在大规模数据集上计算不可行。这些限制促使研究人员寻求更高效、更全面的解决方案。在这一背景下,慕尼黑工业大学等机构的研究团队在《Nature Methods》上发表了题为"scooby: modeling multimodal genomic profiles from DNA sequence at single-cell resolution"的研究论文,介绍了一种能够从DNA序列联合建模单细胞ATAC-seq和RNA-seq基因组图谱的新框架。关键技术方法研究团队基于预训练的多组学图谱预测模型Borzoi,引入了两项关键创新:首先采用低秩自适应(LoRA)策略对序列嵌入进行微调,使模型能够捕捉与细胞状态相关的调控序列效应;其次设计轻量级解码器,利用细胞状态的低维多组学表示,以细胞特异性方式解码序列嵌入。该研究使用了10x单细胞多组学骨髓单核细胞数据集(NeurIPS数据集)、人类心脏类器官多组学数据集和OneK1K大规模单细胞eQTL资源等三类数据集进行模型训练和验证。scooby实现单细胞分辨率的基因组图谱建模scooby框架的核心在于将预训练的序列到图谱模型与细胞状态特异性解码器相结合。