CellNavi:基于基因图增强细胞状态流形学习预测细胞命运转换关键驱动基因的新范式

时间:2025年10月5日
来源:Nature Cell Biology

编辑推荐:

本研究针对细胞状态转换过程中关键驱动基因识别困难的问题,开发了深度学习框架CellNavi。该框架通过整合大规模单细胞转录组数据和基因图先验知识,构建细胞状态流形模型,成功预测了遗传扰动、化学刺激和细胞因子诱导等多种条件下的驱动基因。研究证实CellNavi在T细胞分化、神经退行性疾病机制和药物作用机理等场景具有卓越的泛化能力,为疾病生物学研究和治疗开发提供了新工具。

广告
   X   

在细胞生物学研究领域,理解细胞身份转变的调控机制始终是核心挑战。虽然少数关键基因在细胞状态转换过程中起着决定性作用,但由于基因数量庞大、相互作用复杂,加上实验手段有限和生物学知识不完整,识别这些驱动基因仍然十分困难。传统的基因调控网络(GRN)方法虽然取得了一定进展,但在异质性细胞群体中推断准确GRN仍面临挑战,且往往优先考虑转录因子,可能忽略非转录层面的调控机制。
为了突破这些局限,研究人员在《Nature Cell Biology》发表了题为"CellNavi predicts genes directing cellular transitions by learning a gene graph-enhanced cell state manifold"的研究论文。该研究开发了CellNavi这一深度学习框架,通过从大规模、高维转录组数据中学习并整合具有方向性连接的基因图,构建细胞状态流形,从而预测驱动细胞状态转换的关键基因。
研究团队采用了多项关键技术方法:基于约2000万个单细胞转录组图谱构建细胞状态流形模型(CMM);整合NicheNet基因图包含超过3万个基因的定向连接关系;使用基于注意力的Transformer架构处理图结构数据;通过下采样重建任务进行自监督训练;利用CRISPR筛选数据训练驱动基因预测器(DGP);在多种细胞类型和条件下进行验证,包括永生化细胞系和原代细胞。
Quantitative evaluation of CellNavi
研究人员首先在CRISPR扰动数据集上评估了CellNavi的性能。在Schmidt数据集中,包含69个遗传扰动的CRISPR激活筛选,涵盖了静息和再刺激T细胞中不同细胞类型、状态和扰动前后的表达谱和分子表型。经过再刺激T细胞上的微调后,CellNavi在静息T细胞上进行了测试,评估其在不同细胞状态间预测驱动基因的泛化能力。
在23,047个源-目标细胞对中,CellNavi达到了0.621的top-1准确率和0.733的top-5准确率,在各种指标上都表现出强劲性能。有趣的是,不同扰动基因的top-1准确率存在显著差异,且与样本量无关。局部逆辛普森指数(LISI)相关性分析表明,CellNavi的准确率受到扰动异质性程度的影响:具有较低平均LISI值的扰动(表明响应更加明显和同质化)与较高的准确率相关。
与SCENIC/SCENIC+和GEARS等替代方法相比,CellNavi表现出显著优势。SCENIC和GEARS在多数情况下预测性能明显较低。为了探究这是否是GRN推断方法的普遍挑战,研究人员评估了GENIE3、GRNBoost2和RENGE三种替代GRN推断方法,这些方法在单细胞环境下同样表现不佳。
在Norman数据集上的进一步测试中,CellNavi在单驱动基因预测方面保持了强劲性能。该数据集包含K562细胞系上的CRISPR干扰筛选,涵盖105个单基因和131个基因对扰动。使用无监督Leiden算法对细胞进行分层,留出一个簇进行测试,其余簇用于训练。为确保严格评估,所有多基因扰动都被排除在训练之外。
对于预测的扰动基因对排名,CellNavi将第一个和第二个扰动基因分别排在105个候选基因中的平均第7.9和第31.2位,显著优于所有其他测试方法。
Evaluating model components and graph configurations
为了评估CMM和DGP组件的贡献,研究人员设计了两种消融方法:第一种将DGP与原始基因表达向量结合(无CMM),第二种用更简单的多项逻辑回归模型替换DGP(无DGP)。移除CMM预训练或无DGP微调都会导致性能下降,但对于域外分割(out-of-domain split),缺少CMM预训练比域内分割场景造成更大的性能下降。这些结果强调CMM预训练对于跨生物多样性环境的泛化至关重要,而DGP微调进一步优化了任务特异性预测。
研究人员还评估了NicheNet基因图对CellNavi预测的影响。使用GENIE3、GRNBoost2或RENGE推断的GRN替换NicheNet会导致性能下降,强调了在建模扰动诱导的转换时,整合通路水平信息超越GRNs的优势。
CellNavi identifies key genesin Tcell differentiation
研究人员将CellNavi应用于Cano-Gomez数据集,该数据集通过用抗CD3/抗CD28和细胞因子刺激naive和记忆CD4+ T细胞来分析T细胞分化。在此过程中,外部信号(如抗原和细胞因子)激活调控遗传回路和基因表达程序的关键基因,使T细胞获得特化功能。
研究人员使用Th0细胞作为源细胞,细胞因子诱导的细胞作为目标细胞构建源-目标细胞对。随着细胞分化为各种效应T细胞亚型,研究人员首先编制了一个全面的标记基因集,并计算"转换分数"来量化向这些亚型的分化程度。然后检查了CellNavi在不同效应T细胞组中识别驱动基因的能力。
CellNavi准确地将IL-2hi细胞的关键驱动因子CD28和VAV1排在IL-2hi组的前几位。同样,在IFNγ-high细胞中,CD27和IL9R排名较高,在TH2细胞中GATA3排名较高。进一步分析这些已确立驱动基因在不同效应细胞组中的平均排名发现,相关驱动基因在它们已知驱动分化的相应细胞组中 consistently排名较高。
CellNavi predicts key genes during pathogenesis
研究人员研究了CellNavi是否能预测疾病进展中涉及的关键基因,使用了神经退行性疾病的体外模型系统,特别是Fernandes数据集。该系统包括诱导多能干细胞(iPS)分化的多巴胺能神经元,经过衣霉素处理。衣霉素通过抑制N连接糖基化诱导内质网(ER)应激和帕金森病(PD)样症状,这一过程影响广泛的蛋白质翻译后修饰,而不直接扰动任何单个基因。
在此分析之前,CellNavi在另一个研究(Tian数据集)中的iPS细胞衍生神经元上的单细胞CRISPR筛选数据进行了训练。虽然两项研究都使用人iPS细胞衍生的神经元研究神经退行性疾病,但它们iPS细胞的来源和分化方案不同,导致产生不同类型的神经元。
经过训练后,研究人员将Fernandes数据集中的约47,000个源-目标细胞对输入CellNavi,使用未处理的细胞作为源细胞,暴露于衣霉素的细胞作为目标细胞。CellNavi成功识别了EIF2S1、BAX和HSPA5,这些基因在候选基因中的中位排名分别为第3、第7和第16位。
检查每个细胞对的前20个预测基因发现,共有31个基因显著富集,其中FAM57B、EIF2S1、NDUFS8、BAX和CYCS在大多数细胞中 consistently排名最高。值得注意的是,EIF2S1和BAX是公认的ER应激调节因子,而NDUFS8和CYCS与线粒体应激相关,后者通常与ER应激密切相关。
CellNavi reveals mechanisms of action for drug compounds
研究人员将CellNavi应用于一个化学筛选数据集(Srivatsan数据集),该数据集量化了K562细胞对17种不同组蛋白去乙酰化酶(HDAC)抑制剂的转录组响应。在此设置中,载体处理的细胞被指定为源细胞,而暴露于HDAC抑制剂的细胞作为目标细胞。预测的似然分数表明基因在药物处理过程中是否被调控,排名最高的驱动基因有效地将抑制剂分成不同的簇。
基因本体(GO)富集分析显示了一致的模式:簇3中的化合物在生物合成过程、线粒体功能和蛋白质代谢相关基因中富集,而其他簇中的化合物在RNA剪接、加工和代谢相关基因程序中富集。这些发现与去乙酰化抑制的已知效应一致,即降低细胞质乙酸水平并改变乙酰辅酶A(acetyl-CoA)浓度,这是参与细胞代谢的关键代谢物。
有趣的是,研究人员观察到下游基因程序的选择性与文献报道的半最大抑制浓度(IC50)值之间存在相关性。具体而言,具有较低IC50值的化合物倾向于影响RNA相关通路,而具有较高IC50值的化合物与线粒体功能相关。
CellNavigeneralizes to novel cell types
最后,研究人员评估了CellNavi的泛化能力。重点关注了跨HEK293FT和K562细胞系的CRISPR干扰筛选。这两种细胞类型在起源和特征上显著不同——HEK293FT细胞来源于人胚胎肾细胞,而K562细胞来源于人慢性髓系白血病。在此实验中,CellNavi在HEK293FT细胞上训练,所有K562细胞作为测试集保留。
对于针对切割和多聚腺苷酸化调控机制的16个扰动,CellNavi在top-1预测上达到了0.432的宏F1分数。该模型错误分类了一些编码CPSF和CSTF复合体组分的基因,可能是由于它们扰动后的转录组谱相似。然而,该模型在预测CPSF6和NUDT21方面表现良好,尽管它们在扰动后表现出高度相似的转录组谱。
通过比较按真实扰动与预测扰动分层的细胞组之间的相似性,发现预测标签的组内和组间相关性都密切反映了真实标签的相关性。这表明按预测扰动分组的细胞表现出与按真实扰动分组的细胞高度相似的基因表达特征。
CellNavi代表了在建模细胞状态转换和识别其遗传驱动因子方面的重大进展。通过将生物学信息先验与先进深度学习技术相结合,CellNavi在多样生物环境中实现了高准确率和泛化能力。该研究展示了如何利用大规模单细胞数据和基因网络信息来构建预测模型,这些模型能够跨越不同的细胞类型、条件和研究领域。
研究的局限性包括当前流程需要对相关系统的单细胞CRISPR筛选数据进行微调,无法泛化到新基因,以及缺乏准确建模长程转换的能力。然而,这些挑战也为未来研究指明了方向:整合正交扰动数据、开发处理时间分辨数据的方法,以及减少对特定数据集的依赖。
随着继续完善和扩展像CellNavi这样的模型,研究人员正在为针对疾病根本原因的新型治疗方法铺平道路,这些方法具有前所未有的特异性。这项工作不仅提供了强大的计算工具,还为理解细胞命运决定的基本规律提供了新视角,有望在基础生物学和转化医学领域产生深远影响。

生物通微信公众号
微信
新浪微博


生物通 版权所有