广州健康院合作开发面向大规模异质性空间转录组学切片的表征与空间特征解析方法PASSAGE

时间:2025年2月15日
来源:中国科学院广州生物医药与健康研究院

编辑推荐:

2025年2月5日,中国科学院广州生物医药与健康研究院与北京大学生物医学前沿创新中心(BIOPIC)/昌平实验室合作在Small Methods期刊上发表题为Learning Phenotype Associated Signature in Spatial Transcriptomics with PASSAGE的研究论文

广告
   X   

2025年2月5日,中国科学院广州生物医药与健康研究院与北京大学生物医学前沿创新中心(BIOPIC)/昌平实验室合作在Small Methods期刊上发表题为Learning Phenotype Associated Signature in Spatial Transcriptomics with PASSAGE的研究论文。该研究创新性地将整张切片作为计算建模的对象,提出了切片级别嵌入(slice-levelembedding)的深度学习算法,有效地增强了算法的计算效率和可扩展性,可应用到大规模异质性空间转录组学数据的表型关联空间特征识别。

生命是细胞有序排列构成的整体。单个细胞在脱离生物体后难以独立发挥功能。因此需要联合细胞所处的微环境和空间位置来全面理解细胞功能。随着近年来空间组学技术的迅猛发展,已经基于多种技术平台产生了大量来自不同组织、器官的空间组数据,如何精准表征这些快速增长的海量大规模异质性数据,不仅是相应人工智能方法开发的重大挑战,也是有效解析其中蕴含丰富生物医学信息的前提。

当前的一些计算方法主要关注于单个或数个切片中细胞级别特征,对大量空间转录组学切片数据处理的效能不足。有别于此,PASSAGE提出基于多层次注意力的大规模异构空间组学表征方法,从空间组切片(slice)、细胞与分子多个层次进行不同粒度的表征学习与解析,有效增强了计算效率和可扩展性。具体来说,PASSAGE在基于图注意力自编码器的细胞级表征基础上设计了注意池化层(attention pooling layer),将同一切片的所有细胞加权融合成切片级表征,而后通过由表型信息指导的对比学习策略对切片级表征进行优化,并进而采用非负矩阵分解方法获得基因级别的注意力分数,从而实现对特定表型关联空间组学特征的有效解析(图1)。

例如,针对来自两个不同空转平台(ST,Visium)、42个不同病人的103张乳腺组织与乳腺癌切片,PASSAGE不仅有效处理了不同样本之间存在的批次效应,从而准确识别出不同病人切片中与肿瘤相关的结构区域(图2A)。与此同时,PASSAGE引入的分子水平注意力表征可从注意池化层权重中获得与表型高度相关的基因集,如乳腺癌案例中PASSAGE识别的基因在之前的乳腺癌研究中已被发现与疾病进程高度相关,从而体现了模型较高的生物学可解释性(图2B)。此外,PASSAGE在鳞状细胞癌数据集与三级淋巴结阳性的肾细胞癌数据集的表现均体现了方法的优良可拓展性,有望为癌症等复杂疾病的空间特征和分子机制解析提供全新思路。

值得指出的是,上述多尺度表征学习架构使得PASSAGE可以有效实现针对大规模异质性空间转录组学数据的相关组学特征系统性解析,一张常规4090消费级别GPU卡的算力即可达到平均每分钟600个空间点/细胞的处理速度。随着融入更多的训练数据以及对架构进一步优化,PASSAGE有潜力构建空间转录组学的基础性人工智能算法模型。

中国科学院广州生物医药与健康研究院彭广敦研究员、北京大学生物医学前沿创新中心(BIOPIC)/昌平实验室高歌教授和曹智杰博士为该论文共同通讯作者,实验室二年级硕士研究生郭臣凯与北京大学生命科学学院博士生夏辰睿为论文的共同第一作者。研究工作得到了国家自然科学基金、国家重点研发计划、中国博士后基金、基因功能研究与操控全国重点实验室、北京未来基因诊断高精尖创新中心和昌平实验室的支持。

论文链接

代码链接



图 1 PASSAGE模型的结构示意图



图2  A) PASSAGE在乳腺癌案例中成功学习到良好的切片级表征与所识别的表型关联空间特征 B) PASSAGE在乳腺癌案例中成功学习到与表型关联空间特征高度关联的基因集

相关新闻
生物通微信公众号
微信
新浪微博


生物通 版权所有