基于风格迁移学习的单细胞空间转录组数据插补方法SpaIM:提升基因覆盖与空间解析

时间:2025年8月25日
来源:Nature Communications

编辑推荐:

这篇研究创新性地提出SpaIM模型,通过风格迁移学习(style transfer)整合单细胞RNA测序(scRNA-seq)与空间转录组(ST)数据,成功解决了ST技术中基因覆盖度低和数据稀疏性问题。模型采用递归风格转移(ReST)架构,将基因表达分解为数据无关的内容特征与平台特异的风格特征,在53个数据集(包括10× Visium和CosMx SMI等平台)中显著优于12种现有方法(如Tangram、stDiff),PCC达0.70±0.02,并显著提升配体-受体互作推断和空间域识别等下游分析。

广告
   X   

引言

空间转录组(ST)技术虽能解析组织空间结构,却受限于基因覆盖不全(如CosMx SMI仅检测数千基因)和信号稀疏性。单细胞RNA测序(scRNA-seq)虽提供高维度基因表达,但缺乏空间信息。现有整合方法(如Tangram、gimVI)依赖局部对齐,难以充分挖掘跨平台数据潜力。

方法

SpaIM架构

  1. 1.

    递归风格转移层(ReST):核心组件包含内容编码器(C(l))、风格编码器(S(l))和解码器(D(l)),通过层级特征融合实现内容-风格解耦。

  2. 2.

    双模块设计

    • ST自编码器:以scRNA-seq为参考,分解ST数据为内容(hst(l))和风格(gst(l))。

    • ST生成器:提取scRNA-seq内容,注入ST风格生成预测(公式(10))。

  3. 3.

    损失函数:联合内容损失(公式(11))、风格损失(基于Gram矩阵,公式(14))和重构损失(公式(15)-(16))优化模型。

结果

乳腺癌数据集验证

  • 在10× Visium数据集(CID44971)中,SpaIM的PCC(0.70±0.02)和SSIM(0.60±0.02)显著优于Tangram,且准确恢复肿瘤标志基因(如ERBB2、KRT8)。

  • 配体-受体分析:SpaIM预测出33对强关联互作(如VEGFA-ITGB1),而原始数据仅检测到11对。

CosMx SMI肺癌数据应用

  • 在Lung9-rep1中,SpaIM的SSIM(0.21)和JS(0.43)优于Tangram,并识别出92个淋巴细胞特异性差异基因(DEGs),如免疫调控基因FOXP3。

  • 空间域检测:调整兰德指数(ARI=0.50)接近真实值,而Tangram仅0.16。

跨平台泛化性

  • 在53个数据集(21个Visium、25个成像平台)中,SpaIM平均ACC达0.95±0.07,尤其在测序平台(如Slide-seq)PCC达1.0±0.0。

讨论

SpaIM通过解耦内容与风格,突破了传统局部对齐的局限。其优势包括:

  1. 1.

    生物学可解释性:Shapley值分析显示内容相关基因富集于EMT通路,风格相关基因关联免疫微环境。

  2. 2.

    技术兼容性:支持测序(Visium)和成像(MERFISH)平台。

  3. 3.

    下游分析增强:提升空间域划分、细胞轨迹推断等应用。

未来可结合图Transformer或Mamba架构进一步优化。该研究为解析组织异质性和肿瘤-免疫互作提供了强大工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有