单细胞RNA测序(scRNA-seq)已成为一种变革性的工具,能够在单细胞水平上进行高通量转录组分析[1],克服了批量RNA测序在捕获异质组织中的关键转录信号方面的局限性[2],[3]。随着测序技术的不断发展,scRNA-seq已经在发育生物学[4]、肿瘤学[5]和神经科学[6]等领域带来了革命性的变化,使研究人员能够发现新的生物学见解,识别稀有和/或复杂的细胞群体,并预测细胞分化轨迹[7],[8],[9],在生物医学领域发挥着重要作用。通过提供高分辨率的细胞异质性定量和分析,scRNA-seq加深了我们对多种生物过程的理解[10]。
一个典型的scRNA-seq实验包括几个步骤(图1),包括组织解剖、细胞分选和分离、文库制备、RNA测序以及后续的数据分析[12],[13]。在最后阶段,采用一系列分析策略将测序结果转化为生物学上可解释的信息[14]。其中,差异丰度(DA)分析专注于识别实验条件下的细胞组成变化。这些组成变化通常反映了与疾病状态或复杂表型相关的功能改变,并可以提供关于潜在调控机制的见解,包括细胞相互作用和免疫调节。DA分析的结果为疾病相关的细胞改变提供了机制上的理解,从而支持下游的转化研究,包括药物开发[15]和更广泛的生物医学研究[16]。例如,在黑色素瘤中,DA分析可以揭示反应性免疫细胞亚群与非反应性免疫细胞亚群丰度的变化[17]。同样,Chua等人报告称,对重症和轻度COVID-19患者的DA分析显示,与健康对照组相比,重症患者的基底细胞减少而中性粒细胞增加,这为COVID-19疾病的严重性提供了新的视角[18]。
图2展示了与单细胞DA分析相关的出版物数量随时间的变化。大约在2011年,DA分析的研究最初在微生物组领域得到了关注[19]。由于微生物组和单细胞转录组数据之间存在共同的统计挑战,最初为微生物群落分析开发的DA方法随后被适应用于单细胞应用[20],[21],[22]。自2021年以来,对DA分析的兴趣激增,显著影响了遗传学、生物技术、应用微生物学和分子生物学等领域。随着这一领域的扩展,关于DA分析方法的基准研究开始出现。Simmons等人[23]进行了早期的贡献,他们研究了各种用于细胞类型水平DA分析的统计方法,包括Poisson回归和Dirichlet回归。他们的评估集中在运行时间、准确性和统计功效等性能指标上,并表明带有asin标准化的propeller回归和具有替代参数化的Dirichlet回归在大多数情况下表现良好。最近,Yi等人对DA方法进行了更广泛的基准测试,评估了Milo、DA-seq、MELD、Cydar、CNA和Louvain+GLM等方法,使用了接收者操作特征曲线下面积(AUROC)和精确度-召回曲线下面积(AUPRC)等指标。基于这些分析,Milo、Cydar、CNA和Louvain+GLM被推荐为在控制假发现率(FDR)的同时可靠地识别DA细胞群体的候选方法[16]。
尽管单细胞转录组学中的DA分析发展迅速,但这一领域的专门方法学综述仍然缺乏。现有的工作主要集中在基准测试式的评估上,这些评估提供了有用的性能比较,但对影响方法选择的底层算法原理、建模假设和实际考虑因素的洞察有限。为了填补这一空白,本文对单细胞DA分析方法进行了系统的综合,超越了以性能为中心的评估。本文的观点不仅基于对文献的系统性调查,还基于对代表性方法的实际评估和使用。我们关注不同的统计策略是如何设计来解决不同的分析挑战的,总结了代表性方法的关键特征和局限性,并探讨了它们在现实世界应用中的实际影响。通过将方法论原则与操作考虑结合起来,本文旨在支持明智的方法选择,并指导未来DA分析工具的开发。