MrVI:基于多分辨率变分推断的单细胞基因组学样本异质性深度生成建模

时间:2025年10月14日
来源:Nature Methods

编辑推荐:

单细胞基因组学研究的瓶颈在于如何从数百个样本的复杂设计中解析样本级异质性。研究人员开发了多分辨率变分推断(MrVI)这一深度生成模型,通过反事实分析和分层潜在变量模型,实现了无需先验细胞注释的样本分层和差异分析。该方法在COVID-19和炎症性肠病队列中成功识别出疾病特异性细胞亚群,并在药物扰动筛选中揭示了化合物作用新模式,为大规模单细胞研究提供了统一分析框架。

广告
   X   

随着单细胞基因组学技术的成熟,科学家们现在能够对数百个样本进行大规模研究,揭示临床和遗传特征在细胞和分子水平上的表现。然而,当前的分析方法往往通过跨细胞平均信息来简化数据表示,这种简化可能掩盖了关键生物学信号。特别是在复杂疾病研究和药物筛选中,样本间的异质性如何影响特定细胞亚群的分子表达模式,以及如何在不依赖预先定义的细胞状态的情况下识别这些模式,成为亟待解决的核心问题。
为了突破这些限制,来自加州大学伯克利分校、哥伦比亚大学等机构的研究团队在《Nature Methods》上发表了题为"Deep generative modeling of sample-level heterogeneity in single-cell genomics"的研究论文,开发了多分辨率变分推断(MrVI)这一全新计算框架。该方法通过深度生成建模,首次实现了在单细胞分辨率下同时进行样本分层和比较分析,为大规模单细胞研究提供了统一的分析范式。
研究团队采用的核心技术包括:基于变分自编码器(VAE)的层次贝叶斯模型架构、多头注意力机制处理样本特异性效应、反事实分析方法量化细胞状态变化,以及整合scvi-tools优化流程支持百万级细胞数据分析。研究数据来源于四个重要队列:包含32个模拟对象的半合成PBMC数据集、419,000个COVID-19患者PBMC细胞、251,088个药物扰动筛选细胞(A549、MCF-7、K562细胞系)以及463,000个炎症性肠病(IBD)患者细胞。
多分辨率变分推断
MrVI模型采用双重潜在变量架构,分别捕获细胞固有状态(un)和样本修饰状态(zn)。其中un使用高斯混合先验来表征细胞类型和状态变异,而zn则通过多头注意力机制整合样本标识信息。该模型通过证据下界(ELBO)优化目标函数,并引入L2惩罚项约束潜在空间一致性。值得注意的是,MrVI首次将反事实推理应用于单细胞数据分析,通过计算假设细胞源自不同样本时的潜在状态距离,实现样本间差异的精确量化。
在半合成数据集中检索已知样本效应
研究团队首先在半合成数据集上验证MrVI的性能。该数据集包含5个细胞亚群和32个研究对象,预设了差异表达(DE)和差异丰度(DA)效应。结果显示,MrVI能够准确识别仅在某些细胞亚群中存在的样本分层模式,其样本距离矩阵与真实层次结构高度一致。在DA分析中,MrVI的密度比对数准确反映了模拟的富集/耗竭效应,显著优于Milo方法。在DE分析方面,MrVI与DESeq2参考结果的相关系数显著高于miloDE,证实了其在单细胞分辨率下检测表达差异的优越性。
突出COVID-19患者骨髓细胞反应的变异
在COVID-19队列分析中,MrVI成功将患者分为具有临床意义的亚群。特别值得注意的是,在单核细胞和树突状细胞群体中,模型识别出两个COVID-19亚群,分别与症状持续时间长短相关。DA分析显示疾病组中非经典CD16+单核细胞和DC显著减少,而DE分析则发现三个基因模块:高症状持续时间组中富集健康个体髓系细胞基因(如CSF3R、LGALS2、HLA-DR2);低症状持续时间组中干扰素相关基因(GBP1、IFITM3、IFI27)高表达;以及TNF和NFKBIZ标记的急性感染模块。这些发现与COVID-19病理进展的已知生物学机制高度吻合。
扰动研究中分子效应的分组
在sci-Plex药物筛选中,MrVI以药物名称和剂量浓度组合作为目标协变量,成功识别出具有相似转录效应的化合物集群。特别值得注意的是,组蛋白去乙酰化酶(HDAC)抑制剂和trametinib(MEK抑制剂)在处理细胞中形成明显聚类,反映了其独特的药物诱导基因表达变化。通过样本距离矩阵的层次聚类,MrVI不仅验证了已知的化合物相似性(与Connectivity Map资源一致性高),还发现了非平凡关系,如JAK2抑制剂fedratinib和TG101209与BRD抑制剂JQ1的聚集,后者最近被证明也能抑制JAK-STAT通路。基因集富集分析(GSEA)进一步证实了这些聚类生物学意义的合理性。
克罗恩病狭窄中基质细胞动态的分析
在IBD队列中,MrVI揭示了狭窄表型(B2)特有的细胞组成变化。DA分析显示B2样本中多个内皮细胞群体(如淋巴管内皮细胞、LTC4S+内皮细胞)减少,而ADAMDEC1+成纤维细胞增加。DE分析发现在HIGD1B+STEAP4+周细胞亚群中,狭窄标志物CDH11以及纤维化标志物(ADAMDEC1、COL1A1、LUM、TGFBI)显著上调。更引人注目的是,MrVI预测CD36+内皮细胞中PDGFRB显著上调,提示内皮-间质转化现象,这一发现在IBD相关纤维化中尚未被单细胞基因组学研究所报道。
本研究开发的MrVI框架通过多层次建模和反事实推理,解决了大规模单细胞基因组学分析中的核心挑战。其创新性在于:首先,避免了传统方法对细胞聚类注释的依赖,实现了真正的"自下而上"分析策略;其次,通过样本标识符作为目标协变量,能够发现未被metadata记录的生物学分型;最后,统一的分析框架可广泛应用于临床队列、跨研究和扰动筛选等场景。该方法为理解复杂疾病异质性、药物作用机制提供了新视角,随着单细胞多组学数据规模和复杂性的不断增加,MrVI有望成为下一代分析工具的核心基础。
研究团队在方法学上进行了多项创新设计,包括使用多头注意力机制建模异质性协变量效应、引入细胞类型监督先验提升注释一致性,以及通过超参数敏感性研究确定默认参数。这些设计通过消融研究得到验证,确保了方法在各类应用场景中的稳健性。值得一提的是,MrVI已集成至scvi-tools开源生态系统,支持数百万细胞规模的分析需求,为领域内方法学发展奠定了重要基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有