大脑新皮层是人类认知功能的枢纽,其复杂的层状结构和功能是在胚胎发育期,由神经干细胞(或称放射状胶质细胞)依次生成、迁移并最终“安家落户”形成的。近年来,单细胞转录组学(scRNA-seq)等技术已绘制了哺乳动物新皮层发育的细胞图谱,极大地增进了我们对这一过程的理解。然而,海量的公共数据背后,两大核心挑战阻碍了其发挥更大的发现潜力:首先,这些数据分散在不同的数据库中,缺乏统一的元数据,研究者需要投入大量精力进行繁琐的整理才能联合分析;其次,标准的数据分析方法难以从大量异质性但生物学上关联的数据集中,识别出共同的分子机制。换言之,我们拥有了描绘大脑发育的“像素点”,但还缺乏有效的方法将它们整合成连贯的“动态图像”,从而揭示跨物种、跨发育时期的普适规律。
为了解决这些问题,一个由研究人员组成的团队在《Nature Neuroscience》上发表了一项研究。他们系统性地收集并整理了约200项关于新皮层发育及体外模型的公共转录组学数据,构建了一个名为“NeMO Analytics”的分析平台。这个平台的独特之处在于,它允许不具备编程背景的生物学家同时并行探索数百个数据集。更重要的是,研究人员利用结构联合分解(SJD)等计算方法,对这些数据进行联合分析,旨在抽提出隐藏在庞大数据背后的、跨物种和发育阶段的保守转录组动态,并评估体外模型(如脑类器官)在多大程度上重现了体内的发育过程。
为了开展这项研究,研究人员主要运用了以下几项关键技术方法:首先,他们从公共数据库汇编并深度整理了来自小鼠、猕猴和人类新皮层发育的转录组学数据,构建了NeMO Analytics平台。其次,他们应用了结构联合分解(SJD)算法中的联合非负矩阵分解(jointNMF)方法,对来自不同物种(如小鼠、猕猴、人)的多个单细胞RNA测序(scRNA-seq)数据矩阵进行联合分析,以提取共享的转录组程序。再次,他们利用基于共识“元标记”(MetaMarkers)的细胞类型注释方法,建立了跨哺乳动物新皮层发育的粗略细胞类型共识标签。此外,研究者采用了转移学习(transfer learning)策略,将在特定数据集中定义的转录组特征(基因权重)投射到NeMO Analytics平台上的其他大量数据集中,以验证其稳健性并探索其时空动态。研究还涉及对脑类器官(cerebral organoid)多种分化方案和时间点的scRNA-seq及空间转录组数据进行分析,以评估体外模型的发育保真度。最后,研究整合了来自多个已发表研究的成人新皮层单核RNA测序(snRNA-seq)和空间转录组数据,以定义成熟的、层特异性的神经元转录组特征。
NeMO Analytics是一个用于探索新皮层发育的转录组学数据环境
研究团队构建了NeMO Analytics平台,这是一个便于细胞生物学家使用的、可并行可视化分析大量公共转录组数据集的环境。该平台汇集了专注于兴奋性新皮层神经发生和神经元成熟的基因水平转录组学数据,涵盖了小鼠、灵长类和人类的体内外模型,包括单细胞、空间、显微切割等多种数据类型。研究者可以在该平台上探索单个基因(如EOMES)或基因特征(如细胞周期基因)在多个数据集中的表达模式,并上传自己的基因列表或特征进行跨数据集的探索。
转录组学剖析兴奋性新皮层神经发生
为了利用联合分解方法,研究人员汇集了小鼠、猕猴和人类在孕期中期新皮层发育中兴奋性神经发生轨迹的scRNA-seq数据。他们首先使用“元标记”(MetaMarkers)建立了跨物种的粗略共识细胞类型标签。随后,独立于这些细胞类型标签,他们应用SJD包中的jointNMF算法,定义了三个输入数据矩阵共享的变异维度,得到了七个共享的转录组程序(p7CtxDev)。其中四个模式(p5, p4, p7, p2)清晰地定义了间接神经发生中保守的转录组阶段:p5富集于放射状胶质细胞(RGC),p4富集于中间祖细胞(IPC),p7是瞬时表达的前神经程序,而p2则反映进一步的神经元成熟。这些程序在细胞类型间存在重叠,并随发育时间呈现清晰的动态变化,例如祖细胞会随时间推移逐渐表现出“神经元化”特征。基因富集分析显示,神经祖细胞基因表达与影响大脑整体结构的疾病相关,而神经元基因表达则与神经精神疾病风险相关。
绘制神经发生转录组动态的发育时空图谱
利用NeMO Analytics中的转移学习方法,研究人员将上述联合分解定义的转录组程序(或其基因权重)投射到平台上的其他大量数据集中。结果证实了这些程序在独立的人类胎儿scRNA-seq数据中的细胞类型定位,并在激光显微切割(LMD)的人类胎儿新皮层样本、胎儿小鼠空间转录组数据中明确了它们的层状和空间分布。对小鼠中进行了出生日期标记的RGC的scRNA-seq数据分析显示,从高p5的RGC状态,经高p4的IPC状态,到高p7的新生神经元状态,再到高p2的成熟神经元状态,整个过程大约需要4天。对覆盖人类全生命周期的批量RNA-seq数据分析支持p7是瞬时程序而p2是持久成熟神经元程序的观点。在猕猴皮层的LMD数据中,可以观察到新生神经元在径向迁移过程中,其转录组从p7向p2过渡。
更高分辨率的分解揭示外层放射状胶质细胞的进化见解
对相同的小鼠、猕猴、人类scRNA-seq数据进行更高分辨率(40个模式,p40CtxDev)的jointNMF分析,得到了更详细的转录组动态。其中一个模式(p27of40CtxDev)在猕猴和人类的数千个RGC中高表达,但在小鼠中仅存在于少量祖细胞中。该模式与灵长类的外层放射状胶质细胞(oRG,或基底RG)高度重合,并富集了已知的人类oRG标记基因(如HOPX, FAM107A)。有趣的是,在比较该oRG富集程序与先前定义的RG/细胞周期程序(p5of7CtxDev)时发现,p5在神经源性(产生神经元)和胶质源性(产生胶质细胞)的祖细胞中都高表达,而p27在啮齿类中特异性地在胶质源性祖细胞中表达,在猕猴中则在两种祖细胞中都有表达,而在人类中则富集于神经源性祖细胞。这提示,这个转录组程序可能起源于啮齿类-灵长类共同祖先的胶质源性祖细胞中,后在灵长类谱系中进化,驱动了外层室管膜下区(OSVZ)神经源性祖细胞的扩张。
联合分解定义成人新皮层中兴奋性神经元的层特性
为了精确定义成熟神经元的转录组身份,研究人员对来自成人人类新皮层、经过层显微切割的兴奋性神经元的单核RNA测序(snRNA-seq)数据进行了jointNMF分解,定义了20个共享的神经元转录组特征(p20CtxLayer)。通过转移学习,将这些特征投射到成人人类、猕猴和小鼠新皮层的空间及单细胞转录组数据中,证实了其层特异性表达。其中,模式p4定义了一个在所有三个哺乳动物中都保守的L4神经元身份,而模式p19则定义了一个在人类和猕猴中存在、但小鼠中没有的灵长类特异性L4神经元身份。值得注意的是,在缺乏L4神经元的无颗粒皮层区(如初级运动皮层),这些L4转录组程序出现在邻近的L3和/或L5神经元中。对小鼠脑组织空间表观基因组-转录组共分析数据的投射显示,保守的p4程序在小鼠L4中不仅有高表达,而且有活跃的增强子标记和低抑制标记;而灵长类特异的p19程序在小鼠皮层不表达,并且在小鼠L4区域被抑制性表观标记主动抑制,这表明新物种特异性程序可能源于对祖先物种中已有调控元件的重新调控。
描绘成人神经元层特性的漫长发育进程
利用转移学习,研究人员探索了这些层特异性神经元转录组程序在人类胎儿、出生后及成年新皮层snRNA-seq数据中的发育轨迹。每个成年层模式在胎儿数据中就已经在特定的神经元亚型中表达更高,并且所有层特性都随着发育时间而逐渐建立,在胎儿期水平最低,在出生后多年中表达持续增加。这种层特异性转录组身份的长期成熟过程,与构建它们的转录因子(TF)的表达时程形成鲜明对比。许多定义层的经典TF(如FEZF2, CUX2, RORB)在胎儿早期达到表达峰值,随后其RNA水平下降,而它们所驱动的成年层身份却在出生后多年持续增强。这表明,定义神经元身份的TF在胎儿期建立了持久的表观遗传结构,使得后续多年的成熟过程可以在其自身mRNA水平不高的情况下稳定执行。
绘制神经元成熟及特定层特性出现的过程
研究人员结合了低分辨率神经发生转录组维度(p7CtxDev,特别是p7和p2)与成年层特异性神经元程序(p20CtxDev),绘制了人类出生前后snRNA-seq数据中神经元成熟和层特性出现的轨迹。数据显示,层特异性转录组身份只有在新生神经元程序p7被关闭、成熟神经元程序p2被充分诱导之后才开始出现。总体而言,各层特异性成熟模式开始出现的时间遵循新皮层神经元诞生的经典“由内向外”(深层到上层)模式。保守的哺乳动物L3/L4模式p4是个例外,它比其他相邻的神经元层身份早数周出现。这些观察将精确的分子轨迹与发育的细胞生物学过程联系起来。
体内广泛的转录组动态在体外被重现,而特定的神经元层特性则不完整
为了评估脑类器官模型重现体内发育的程度,研究人员将体内定义的神经发生和成熟转录组维度投射到多种体外分化模型的数据中。结果显示,神经发生的广泛要素(如p5, p4, p7, p2程序的顺序出现)在体外被重现,oRG富集程序(p27)的动态也与体内类似。然而,体外神经元未能完成成熟的轨迹:它们没有像体内那样,聚集在低p7、高p2的统一状态,并在此状态下系统性地出现成熟的层特性。在多种脑类器官方案(包括不同诱导多能干细胞(iPSC)系、更长时间培养、类器官切片培养等)中,只有深层神经元程序(如subplate/L6b的p1和L5/6 NP的p13)显示出与体内发展类似的、系统性的成熟轨迹。将人脑类器官移植到新生大鼠皮层中,可促进几乎所有成年层特征的表达水平,但仍未完全重现体内系统性的成熟模式,特别是上层L2/L3程序(p17)和灵长类特异性L4程序(p19)的表达未与最成熟的神经元状态完全对应。
本研究构建了一个公共的多组学数据平台,并利用联合分解方法定义了跨越发育时间、细胞类型和哺乳动物物种的连续、重叠的复杂转录组程序要素。研究揭示了新皮层神经发生中保守的分子动态、灵长类特异性oRG程序的进化起源,以及成人神经元层特异性身份的漫长成熟过程。通过将成熟神经元特征投射到脑类器官数据,研究明确了当前体外模型在重现特定神经元层成熟程序方面的局限性,特别是上层和灵长类特异性特征的缺失。这些发现强调,严格的、非重叠的基因和细胞分类不足以描述哺乳动物基因组和细胞功能相互交织的复杂性。NeMO Analytics数据资源及其定义的转录组动态,可用于进一步探索新皮层的发育,并设计可在体外系统中操控的、针对常见复杂脑疾病风险背后的精确细胞机制的实验。该研究邀请全球研究界利用这一资源,并通过上传新兴数据来扩展其发现潜力。