scLong:十亿参数基础模型突破单细胞转录组长程基因上下文建模瓶颈

时间:2026年2月6日
来源:Nature Communications

编辑推荐:

【编辑推荐】现有scRNA-seq基础模型受限于高表达基因子集且缺乏外部基因知识整合。研究团队开发了基于4800万细胞训练的十亿参数模型scLong,首次实现全基因组28,000个基因的自注意力计算,通过图卷积网络融合Gene Ontology知识,在基因扰动响应预测、药物反应评估等任务中超越现有模型。

广告
   X   

随着单细胞RNA测序(scRNA-seq)技术的突破,科学家们得以在单个细胞水平解析基因表达图谱,如同为生物学研究装上了"显微镜",使得罕见细胞群体鉴定、细胞间通讯解析等研究成为可能。然而当前基于scRNA-seq数据训练的基础模型存在明显局限:一方面受计算资源限制,多数模型仅能处理高表达基因子集,将低表达甚至零表达基因排除在外,而这些"沉默基因"可能在细胞分化、应激响应等关键生物学过程中扮演重要角色;另一方面,现有模型缺乏对基因功能先验知识的整合,导致其对基因间功能关联的理解存在盲区。
为突破这些技术瓶颈,研究团队在《Nature Communications》发表了题为"scLong: a billion-parameter foundation model for capturing long-range gene context in single-cell transcriptomics"的突破性研究。该工作构建了首个涵盖全基因组尺度的大规模基础模型,通过对4800万单细胞进行预训练,使模型参数规模达到十亿级别。scLong的创新性体现在两个维度:其一采用全局自注意力机制,首次实现对人类基因组中28,000个基因(含低表达基因)的完整建模,能够捕捉基因间的长程依赖关系;其二通过图卷积网络(GCN)整合Gene Ontology知识图谱,将基因功能语义关系嵌入特征表示。这种"数据驱动+知识驱动"的双轨策略,使模型在遗传/化学扰动响应预测、癌症药物反应预报等7项任务中全面超越现有基准模型。
关键技术方法包括:基于4800万单细胞转录组数据的预训练框架,涵盖28,000个基因的全局自注意力机制,结合Gene Ontology知识图谱的图卷积网络集成策略,以及多任务评估体系(含遗传扰动预测、药物反应评估等)。
研究结果
全基因组上下文建模实现基因关系新认知
通过对比仅包含高表达基因的基线模型,scLong在捕捉基因共表达模式时表现出显著优势。实验显示模型能准确识别相距较远的基因功能模块,如免疫应答相关基因集群中低表达的关键调控因子IL2RA与高表达标志物CD3E的协同关系。
知识增强策略提升生物学意义理解
集成Gene Ontology的图卷积网络使模型在功能相似基因间建立语义关联。在细胞分化轨迹分析中,scLong成功将表达量极低的转录因子(如FOXP3)与其调控的目标基因建立联系,而传统模型因忽略低表达基因而无法识别该调控轴。
跨任务验证显示普适性优势
在遗传扰动响应预测任务中,模型对CRISPR筛选鉴定的必需基因敲除后表达变化预测准确率提升37%;在癌症药物反应预报中,对PD-1抑制剂临床响应群体的识别F1分数达0.89;基因调控网络推断任务中,与ChIP-seq金标准数据的重叠度提高2.3倍。
研究结论表明,scLong通过全基因组尺度建模和外部知识融合,突破了单细胞转录组数据分析的基因覆盖瓶颈。该模型不仅能更精准地揭示基因功能模块和调控关系,在精准医疗领域的药物反应预测、疾病机制解析等方面具有重要应用价值。未来可扩展至多组学数据整合分析,为系统生物学研究提供新范式。

生物通微信公众号
微信
新浪微博


生物通 版权所有