基于Transformer的小鼠大脑精细区域发现:数据驱动的空间转录组学新范式

时间:2025年10月9日
来源:Nature Communications

编辑推荐:

本研究针对器官尺度空间转录组数据的分析瓶颈,开发了基于自监督Transformer架构的CellTransformer工作流,成功实现了多百万细胞级MERFISH数据集的空间域识别。该方法不仅能准确复现Allen小鼠大脑通用坐标框架(CCF)的解剖结构,还发现了数百个未收录的皮质下亚区,为大脑空间组织研究提供了高性能计算解决方案。

广告
   X   

在神经科学和生物医学研究领域,全面解析大脑的空间组织结构一直是项重大挑战。随着空间转录组学技术的突破性进展,如MERFISH(多重误差鲁棒荧光原位杂交)和Slide-seqV2等技术的出现,科学家们能够以前所未有的分辨率绘制器官尺度的基因表达图谱。然而,如何从数百万个细胞的庞大数据中有效识别具有生物学意义的空间功能域,仍面临巨大计算瓶颈。传统方法往往受限于GPU内存而无法处理全组织切片数据,或难以在保持空间连贯性的同时整合多切片信息。
针对这一难题,加州大学旧金山分校Reza Abbasi-Asl团队与艾伦脑科学研究所合作,在《Nature Communications》发表了创新性研究成果。他们开发了名为CellTransformer的自监督深度学习框架,通过 encoder-decoder 架构从细胞和分子统计模式中分层学习高级组织特征。该工作流结合GPU加速聚类算法,首次实现了对900万细胞级数据的精细空间域发现。
研究团队采用了几项关键技术方法:首先构建基于固定空间阈值(85μm)的细胞邻域图;其次设计特殊的Transformer架构,通过掩码细胞类型条件预测实现表征学习;最后利用cuml库进行GPU加速的k-means聚类。所有分析均基于艾伦脑研究所发布的ABC-WMB数据集(包括500基因和1129基因MERFISH面板),涵盖冠状和矢状切面的多动物数据。
数据驱动的小鼠大脑精细空间域发现
通过对ABC-WMB数据集的3.9百万细胞进行分析,CellTransformer在k=25、354和670三个层级均显示出与CCFv3注释的高度一致性。在k=25时,模型准确识别出纹状体背腹侧分区和皮质层状结构;当k=354时,成功检测到运动皮质中先前未被确认的第4层;在k=670分辨率下,皮质层进一步被划分为更精细的亚层结构。特别值得注意的是,在纹状体中发现的网格状模式与Hintiryan等人通过投射图谱建立的Voronoi分割高度相似。
海马形成结构的空间域映射
在k=1300的精细分辨率下,CellTransformer准确识别出海马下托(SUB)和前下托(PS)的三层组织结构,包括分子层(mo)、锥体细胞层(py)和多形层(po)。这些发现与Ding等人通过原位杂交实验确定的解剖边界高度一致,并显示出相似的基因表达梯度模式。
上丘的层状和柱状组织量化
研究揭示了上丘感觉区带状层(zo)、浅灰质层(sg)和视神经层(op)的转录组学特征,发现GABA能神经元在浅灰质层占比最高,而谷氨酸能神经元在视神经层最丰富。在中间灰质层(ig)和中间白质层(iw)中,研究者还发现了与连接组学研究相符的 medial-lateral 结构。
中脑网状核的medial-lateral梯度
在CCF中缺乏详细注释的中脑网状核(MRN)区域,CellTransformer识别出四个未特征化的亚区,呈现出抑制性神经元的medial-lateral梯度分布。背侧区域显示较高比例的谷氨酸能神经元,而腹侧区域以胶质细胞为主。
多动物数据集的扩展应用
研究证明CellTransformer能有效整合来自四个不同动物的239个组织切片数据,在冠状和矢状切面上保持空间域的一致性。即使在仅包含16万细胞的动物数据中,93.3%的空间域在所有动物中都得以保持。
Slide-seqV2数据的跨技术验证
通过应用CellTransformer到Slide-seqV2数据集,研究团队成功识别出皮质层和梨状区等结构,证明了该方法在不同空间转录组技术中的普适性。
本研究通过创新的深度学习框架解决了大规模空间转录组数据分析的核心挑战。CellTransformer不仅能复现已知神经解剖结构,还发现了大量未收录的功能亚区,特别是在海马形成、上丘和中脑网状核等区域。该方法的多动物整合能力和跨技术适用性为未来大脑细胞图谱研究提供了强大工具,有望推动从数据驱动到知识发现的空间组学研究范式转变。值得注意的是,该方法不需要预先的空间标签或复杂的批次校正,仅通过局部细胞和分子信息就能学习到具有生物学意义的空间表征,为理解组织空间组织原理提供了新途径。

生物通微信公众号
微信
新浪微博


生物通 版权所有