编辑推荐:
这篇研究创新性地提出SpaIM模型,通过风格迁移学习(style transfer)整合单细胞RNA测序(scRNA-seq)与空间转录组(ST)数据,成功解决了ST技术中基因覆盖度低和数据稀疏性问题。模型采用递归风格转移(ReST)架构,将基因表达分解为数据无关的内容特征与平台特异的风格特征,在53个数据集(包括10× Visium和CosMx SMI等平台)中显著优于12种现有方法(如Tangram、stDiff),PCC达0.70±0.02,并显著提升配体-受体互作推断和空间域识别等下游分析。
空间转录组(ST)技术虽能解析组织空间结构,却受限于基因覆盖不全(如CosMx SMI仅检测数千基因)和信号稀疏性。单细胞RNA测序(scRNA-seq)虽提供高维度基因表达,但缺乏空间信息。现有整合方法(如Tangram、gimVI)依赖局部对齐,难以充分挖掘跨平台数据潜力。
SpaIM架构:
递归风格转移层(ReST):核心组件包含内容编码器(C(l))、风格编码器(S(l))和解码器(D(l)),通过层级特征融合实现内容-风格解耦。
双模块设计:
ST自编码器:以scRNA-seq为参考,分解ST数据为内容(hst(l))和风格(gst(l))。
ST生成器:提取scRNA-seq内容,注入ST风格生成预测(公式(10))。
损失函数:联合内容损失(公式(11))、风格损失(基于Gram矩阵,公式(14))和重构损失(公式(15)-(16))优化模型。
乳腺癌数据集验证:
在10× Visium数据集(CID44971)中,SpaIM的PCC(0.70±0.02)和SSIM(0.60±0.02)显著优于Tangram,且准确恢复肿瘤标志基因(如ERBB2、KRT8)。
配体-受体分析:SpaIM预测出33对强关联互作(如VEGFA-ITGB1),而原始数据仅检测到11对。
CosMx SMI肺癌数据应用:
在Lung9-rep1中,SpaIM的SSIM(0.21)和JS(0.43)优于Tangram,并识别出92个淋巴细胞特异性差异基因(DEGs),如免疫调控基因FOXP3。
空间域检测:调整兰德指数(ARI=0.50)接近真实值,而Tangram仅0.16。
跨平台泛化性:
在53个数据集(21个Visium、25个成像平台)中,SpaIM平均ACC达0.95±0.07,尤其在测序平台(如Slide-seq)PCC达1.0±0.0。
SpaIM通过解耦内容与风格,突破了传统局部对齐的局限。其优势包括:
生物学可解释性:Shapley值分析显示内容相关基因富集于EMT通路,风格相关基因关联免疫微环境。
技术兼容性:支持测序(Visium)和成像(MERFISH)平台。
下游分析增强:提升空间域划分、细胞轨迹推断等应用。
未来可结合图Transformer或Mamba架构进一步优化。该研究为解析组织异质性和肿瘤-免疫互作提供了强大工具。
生物通 版权所有