随着单细胞基因组学技术的成熟,科学家们现在能够对数百个样本进行大规模研究,揭示临床和遗传特征在细胞和分子水平上的表现。然而,当前的分析方法往往通过跨细胞平均信息来简化数据表示,这种简化可能掩盖了关键生物学信号。特别是在复杂疾病研究和药物筛选中,样本间的异质性如何影响特定细胞亚群的分子表达模式,以及如何在不依赖预先定义的细胞状态的情况下识别这些模式,成为亟待解决的核心问题。为了突破这些限制,来自加州大学伯克利分校、哥伦比亚大学等机构的研究团队在《Nature Methods》上发表了题为"Deep generative modeling of sample-level heterogeneity in single-cell genomics"的研究论文,开发了多分辨率变分推断(MrVI)这一全新计算框架。该方法通过深度生成建模,首次实现了在单细胞分辨率下同时进行样本分层和比较分析,为大规模单细胞研究提供了统一的分析范式。研究团队采用的核心技术包括:基于变分自编码器(VAE)的层次贝叶斯模型架构、多头注意力机制处理样本特异性效应、反事实分析方法量化细胞状态变化,以及整合scvi-tools优化流程支持百万级细胞数据分析。研究数据来源于四个重要队列:包含32个模拟对象的半合成PBMC数据集、419,000个COVID-19患者PBMC细胞、251,088个药物扰动筛选细胞(A549、MCF-7、K562细胞系)以及463,000个炎症性肠病(IBD)患者细胞。多分辨率变分推断MrVI模型采用双重潜在变量架构,分别捕获细胞固有状态(un)和样本修饰状态(zn)。其中un使用高斯混合先验来表征细胞类型和状态变异,而zn则通过多头注意力机制整合样本标识信息。该模型通过证据下界(ELBO)优化目标函数,并引入L2惩罚项约束潜在空间一致性。值得注意的是,MrVI首次将反事实推理应用于单细胞数据分析,通过计算假设细胞源自不同样本时的潜在状态距离,实现样本间差异的精确量化。在半合成数据集中检索已知样本效应研究团队首先在半合成数据集上验证MrVI的性能。该数据集包含5个细胞亚群和32个研究对象,预设了差异表达(DE)和差异丰度(DA)效应。结果显示,MrVI能够准确识别仅在某些细胞亚群中存在的样本分层模式,其样本距离矩阵与真实层次结构高度一致。在DA分析中,MrVI的密度比对数准确反映了模拟的富集/耗竭效应,显著优于Milo方法。在DE分析方面,MrVI与DESeq2参考结果的相关系数显著高于miloDE,证实了其在单细胞分辨率下检测表达差异的优越性。