单细胞RNA测序拷贝数变异检测工具的系统性性能评估与临床应用前景

时间:2025年10月4日
来源:Nature Communications

编辑推荐:

本研究针对单细胞RNA测序(scRNA-seq)数据中拷贝数变异(CNV)检测缺乏独立验证的问题,系统评估了六种主流计算工具在21个数据集上的性能。研究人员通过多维度指标分析发现,方法性能受数据集特异性因素影响显著,等位基因信息整合工具在大规模液滴数据中表现稳健但计算成本较高。该研究为肿瘤异质性研究提供了方法选择指南,并开发了可扩展的标准化评估流程。

广告
   X   

在癌症研究领域,拷贝数变异(CNV)作为基因组区域获得或丢失的结构变化,与疾病发生发展密切相关。单细胞技术的突破性进展为捕捉样本内CNV异质性和识别肿瘤进展相关的亚克隆提供了全新视角。尽管目前已开发出多种从scRNA-seq数据推断CNV的计算工具,但缺乏独立的性能评估体系使得研究者难以选择合适的方法,这严重阻碍了CNV在癌症生物学中的功能研究。
为填补这一空白,Katharina T. Schmid团队在《Nature Communications》发表了系统性评估研究,对六种主流scRNA-seq CNV检测工具进行了全面基准测试。研究人员采用21个涵盖不同技术平台(液滴法与板式法)和物种(人类与小鼠)的数据集,通过多维度指标评估各方法在CNV识别、二倍体细胞鉴定和亚克隆结构解析等方面的性能。
研究采用的关键技术方法包括:基于正交CNV测量(单细胞全基因组测序(scWGS)或全外显子组测序(WES))的验证策略;通过伪批量分析实现单细胞数据与批量基因组数据的整合比较;采用受试者工作特征曲线下面积(AUC)和多类别F1分数等统计指标进行性能量化;并开发了可重现的Snakemake流程实现新数据集和新方法的快速集成。
scRNA-seq CNV calling benchmarking
研究人员评估了六种专门为scRNA-seq数据设计的CNV检测方法,这些方法可分为两类:仅使用表达水平的InferCNV、copyKat、SCEVAN和CONICSmat;以及整合表达值与次要等位基因频率(AF)信息的CaSpER和Numbat。方法在输出格式、分辨率和算法策略上存在显著差异,如HMM(隐马尔可夫模型)、分段方法和混合模型等。
Benchmarking scRNA-seq CNV prediction compared to genomic ground truth in droplet-based data
在15个人类癌症液滴数据集测试中,Numbat(Expr)、copyKat和InferCNV(Expr)表现出最高的最大F1分数(0.59-0.57)。研究发现性能差异与数据集特性密切相关:细胞数量、表达基因数和测序覆盖度与性能正相关,而dropout率和基因组畸变比例与性能负相关。所有方法对严格定义的局灶性CNV(focal CNV)检测灵敏度均较低。
Benchmarking CNV prediction in other organisms and sequencing technologies
扩展到板式技术和小鼠数据的测试表明,表达型方法在不同平台和物种间保持稳定性能,而基于AF的方法(CaSpER和Numbat)在板式数据中因SNP数量不足而性能下降。配对多组学数据的单细胞比较进一步验证了scRNA-seq CNV预测的细胞间异质性捕获能力。
Benchmarking CNV prediction on euploid samples
二倍体样本测试显示,当使用相同细胞类型参考时,所有方法均能较好识别二倍体基因组。但参考数据集选择不当会显著降低性能,其中Numbat(CNV)在所有测试场景中均能准确识别完全二倍体基因组,表现出最强的鲁棒性。
Benchmarking the impact of the reference on CNV detection for aneuploid datasets
参考数据集的选择对癌症样本CNV检测产生重要影响。研究表明,使用相同样本中的二倍体细胞作为参考可获得最佳性能,而外部参考或自身携带CNV的细胞类型作为参考会显著降低预测可靠性。
Benchmarking automatic identification of tumor cells
自动肿瘤细胞识别功能测试表明,Numbat在所有数据集中达到95%以上的准确率,而copyKat和SCEVAN的性能随二倍体细胞比例变化而波动。自动参考识别功能虽能减少人工注释负担,但在二倍体细胞稀少时可能失效。
Benchmarking the identification of subclones
亚克隆识别测试中,copyKat、InferCNV和Numbat能有效区分不同供体的CNV谱,而CaSpER、CONICSmat和SCEVAN在混合样本中未能成功区分克隆结构。
研究结论强调,没有单一方法在所有场景中表现最优,方法选择应基于具体研究需求。数据集质量(细胞数量、测序深度、dropout率)对性能的影响远大于算法选择本身。整合等位基因信息的方法(Numbat和CaSpER)在二倍体识别方面表现突出但计算成本较高;而纯表达型方法(copyKat和InferCNV)在标准癌症数据集中表现稳健且计算高效。
该研究提供的标准化评估流程(https://github.com/colomemaria/benchmark_scrnaseq_cnv_callers)不仅为方法选择提供实践指南,更为新工具开发设立了性能基准。随着单细胞多组学技术的发展,整合表观遗传信息的CNV检测方法将成为解决当前技术局限性的重要方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有