空间转录组学标准化评估新框架:多中心多平台验证与质量度量工具SpatialQM的开发

时间:2025年12月4日
来源:Nature Biotechnology

编辑推荐:

本研究针对成像空间转录组缺乏标准化评估指标的问题,通过多中心合作构建了Spatial Touchstone(ST)数据集,涵盖6种组织类型在Xenium和CosMx平台的254个空间转录组数据。研究建立了标准化操作流程(STSOPs),开发了开源软件SpatialQM和交互式数据库STP,系统评估了技术指标如特异性FDR、信噪比(SNR)和动态范围等,证实了多平台数据的可重复性,为空间组学数据的质量控制与跨研究比较提供了重要参考标准。

广告
   X   

在生物医学研究领域,空间转录组学技术正以前所未有的分辨率揭示着组织的分子和细胞架构。然而,随着该技术的快速发展,一个严峻的问题逐渐浮现:缺乏统一的标准化的质量评估指标。不同平台、不同实验室产生的数据质量参差不齐,使得跨研究比较变得困难重重,这严重阻碍了该领域的进一步发展。正如微阵列和测序技术发展初期经历的标准化进程一样,空间转录组学也迫切需要建立系统性的评估策略来解决可重复性问题。
目前的研究存在明显局限:样本数量有限、组织类型范围狭窄、缺乏重复实验以及匹配的单细胞参考数据。这种现状与当年微阵列和测序技术的MAQC/SEQC项目面临的情形惊人相似。技术平台之间的差异、细胞分割算法的不一致、基因面板设计的多样性,以及实验操作的变异性,所有这些因素共同构成了空间组学数据比较和整合的主要障碍。
为了应对这些挑战,国际研究团队在《Nature Biotechnology》上发表了题为"Standardized metrics for assessment and reproducibility of imaging-based spatial transcriptomics datasets"的重要研究。这项工作通过多中心、多平台的协作,建立了全面的评估框架,为空间转录组学数据的质量控制和标准化分析提供了重要工具。
研究人员开发了一套完整的研究体系,主要包括三个核心组成部分:标准化操作流程(STSOPs)、开源软件包SpatialQM和网络交互式数据库Spatial Touchstone Portal(STP)。研究采用了六种组织类型(包括正常组织和癌组织),通过中心化切片处理,在多个全球站点使用Xenium和CosMx平台进行分析。这些平台因其广泛应用和不同的化学原理而被选中。研究特别关注了技术性能的多个维度,包括准确性、精密度、可重复性、灵敏度和特异性。
技术方法方面,研究采用了系统化的实验设计,包括样本处理、平台比较和数据分析三个主要环节。样本来源包括正常组织(阑尾、结肠、胰腺、回肠)和癌组织(乳腺癌和前列腺癌),所有样本均进行福尔马林固定石蜡包埋(FFPE)处理。实验设计包含多中心验证,样品在三个主要站点(阿德莱德大学、威尔康奈尔医学院、圣犹达儿童研究医院)进行处理,同时在10x Genomics总部进行额外实验。核心技术包括成像空间转录组学(Xenium和CosMx平台)、单核RNA测序(snRNA-seq)以及H&E染色分析。数据分析依托自主研发的SpatialQM软件进行标准化质量度量计算。
技术指标评估
研究团队建立了一套全面的技术性能指标。在转录本水平上,他们评估了每个细胞的转录本数(TPC)、单位面积的转录本数(TPA)和每个细胞核的转录本数(TPN)。ST数据集的TPC范围为0.07-0.95(标准化值),平均为0.29±0.24,而PUB数据集显示出更高的平均值0.82±0.55。特别值得注意的是,TPN指标能够独立于细胞分割效果,直接反映细胞核内的转录本检测情况,ST数据集的TPN平均值为73±52.86。
探针特异性通过"特异性错误发现率(specificityFDR)"指标进行评估,ST数据集的特异性FDR值范围为5.5×10-5至0.069,显著优于PUB数据集的范围(8.2×10-5至0.69)。信噪比(SNR)和动态范围评估显示,ST数据集的SNR均值为0.28±0.08,动态范围均值为4.11±1.03,表现出比PUB数据集更稳定的性能。
细胞分割质量通过相互排斥相关比(MECR)进行量化,该指标评估本应互斥的基因在同一细胞中共表达的情况。ST数据集的MECR均值为0.05±0.02,明显低于PUB数据集的0.13±0.18。此外,稀疏性(sparsity)、熵(entropy)和复杂性(complexity)等指标也提供了对数据质量的深入洞察。特别是归一化复杂性(normComplexity)指标,它解释了不同平台间面板大小的差异,使跨平台比较成为可能。
可重复性度量
通过主成分分析(PCA)发现,成像平台的选择是区分样本的主要因素,而非样本或数据集本身的不同。Xenium和CosMx样本在主成分1(PC1)上明显分离,PC1解释了总方差的34.39%。研究还发现,尽管不同平台的细胞分割算法导致细胞计数存在差异,但平台检测主要细胞类型的能力基本一致。
在乳腺癌样本的对比分析中,ST数据集显示出更高的一致性,其熵值范围为0.40-0.68(均值0.55±0.1),而PUB数据集的熵值变异更大(0.58-1.03,均值0.75±0.2)。空间自相关分析使用莫兰I(Moran's I)统计量,ST和PUB数据集的平均莫兰I分数分别为0.080和0.144,进一步证实了ST数据集具有更好的可重复性。
生物学质量指标
通过单核RNA测序(snPATHO-seq)数据验证显示,Xenium平台与参考数据在整个动态范围内均表现出良好相关性(Spearman's ρ=0.78),而CosMx样本的相关性较低(Spearman's ρ=0.60),且对低表达基因的检测存在系统性偏高。细胞类型注释的一致性分析表明,Xenium的平均细胞类型相关系数为0.78,而CosMx的变异性较高(均值0.57)。
细胞分割对转录本定量的准确性有重要影响。研究比较了三种分割策略:不同距离的细胞核扩展、基于染色的形态学分割和Proseg算法。结果显示,Proseg分割在保持高纯度的同时,获得了比多模式分割多1.7倍的TPC(128.3对74.6),且产生的聚类更加清晰。
多组学分析评估
研究还探讨了空间转录组学与空间蛋白质组学之间的相关性。使用Xenium进行转录组分析,CosMx进行蛋白质组分析,评估了总细胞核计数(TNC)、每个细胞的荧光强度(FPC)、复杂性、熵、稀疏性和SNR等技术指标。通过MaxFuse方法整合多组学数据,发现在共享嵌入空间中RNA和蛋白质模态存在显著重叠,平滑肌细胞在RNA数据中过度呈现,而上皮细胞类型在两种检测中均表现出良好对齐。
研究的核心贡献在于建立了空间转录组学的标准化评估框架。ST数据集相比PUB数据集显示出更窄的技术变异性,证明了标准化操作流程在提高数据可重复性方面的价值。特别是STSOPs的实施显著降低了特异性FDR和SNR测量的变异性。然而,研究也指出了一些局限性,如中心化的组织切片处理限制了对站点间前处理步骤变异的全面评估,未来研究需要纳入分散化的前处理流程。
技术指标的解释需要综合考虑组织类型、探针面板和平台特性。例如,FTC和TPC等指标严重依赖于细胞分割的准确性,而稀疏性和熵指标对面板特异性和分割质量敏感。MECR虽然在检测上皮、免疫和基质区室中的错误分配方面表现良好,但在不同组织类型间的稳健性仍需进一步验证。
细胞分割算法的持续发展,特别是基于像素的分割无模型,有望通过直接从组织图像学习特征,绕过传统对细胞膜或细胞核标记的依赖,从而实现跨平台和组织类型的通用比较。基因面板设计也是影响数据质量和可解释性的关键因素,定制化面板针对特定组织类型能够提高分析效率和清晰度。
该研究为空间组学领域建立了重要的基准框架,通过标准化度量和工具促进了数据的可比性和平台评估。随着空间技术应用扩展到更广泛的组织类型、平台和实验环境,这些指南预期将不断演进和完善,推动空间组学领域向更标准化、可重复的方向发展。
研究的独特实验设计使得能够全面评估这些分析的可重复性。连续切片在同一机构内顺序处理,突出了Xenium和CosMx平台的一致性。相邻组织切片在不同站点处理后产生的数据高度一致,相关系数通常超过0.95(平均r=0.97)。与单核RNA测序数据的比较验证了所有测定中100%的细胞类型均被呈现,且比例非常相似,这强调了ST数据集在捕捉组织细胞景观方面的准确性和实用性。
总的来说,这项全球性、多机构、多平台的研究通过站点内和站点间的重复测量,评估了成像空间转录组学技术,建立了跨平台的关键指标,突出了互补优势和挑战。随着STP随着用户生成数据集的不断增长,空间转录组学的规模和稳健性将不断提高,有望在各种组织类型和条件下产生更一致的SNR、动态范围和FTC值。这项工作为促进空间组学数据的比较性分析和标准化实践奠定了重要基础,将加速该领域的科学进展和治疗发现。

生物通微信公众号
微信
新浪微博


生物通 版权所有