Carta算法:基于谱系追踪数据推断细胞分化图谱的优化框架

时间:2025年12月9日
来源:Nature Methods

编辑推荐:

本研究针对现有细胞分化图谱推断方法存在限制性假设的问题,开发了Carta算法框架。该框架通过平衡图谱复杂性与谱系树观测差异,首次实现从单细胞谱系追踪数据中推断最优分化图谱。在哺乳动物躯干发育和小鼠造血模型中的应用表明,Carta能识别收敛分化、祖细胞分化动力学等重要特征,为发育生物学研究提供了新范式。

广告
   X   

在生命发育的奇妙旅程中,细胞如何从原始状态逐步分化为各种特定类型,构成了发育生物学的核心谜题。这一过程被概括为细胞分化图谱——描述祖细胞类型与特化细胞类型之间层次关系的路线图。传统方法如延时显微镜虽能直接追踪细胞命运,但在复杂生物体中难以实施。近年来,单细胞RNA测序(scRNA-seq)技术的出现使大规模研究细胞分化成为可能,但基于这些数据的轨迹推断方法存在明显局限:它们假设所有祖细胞类型均被观测到,这在实际发育过程中往往不成立。
更令人困扰的是,当前细胞分化图谱推断方法存在两种极端假设:轨迹推断方法认为所有祖细胞类型均被观测,而近期研究则默认分化图谱为二叉树结构。这两种假设都与实际发育过程存在偏差——早期瞬时祖细胞可能未被观测,且分化图谱并非总是树状结构,还存在收敛分化等现象。面对这些方法在启发式模型和假设上的巨大差异,领域亟需一个能够系统评估不同细胞分化模型的定量框架。
为此,研究团队在《Nature Methods》上提出了Carta这一全新算法框架。该框架的核心创新在于将祖细胞类型定义为"分化潜能"(potency)——即其后代细胞能够达到的所有细胞类型集合。这一模型巧妙解决了瞬时祖细胞可能未被观测的难题。Carta通过平衡图谱复杂性(祖细胞数量)与图谱和谱系树之间的差异,计算出帕累托最优解,从而确定包含最优祖细胞数量的分化图谱。
研究团队开发了Carta的两种模式:Carta-Tree生成树状结构分化图谱,Carta-DAG则生成有向无环图(DAG)结构图谱。两种模式均使用混合整数线性规划(MILP)来求解细胞分化图谱推断问题(CDMIP)。Carta还包含启发式模式,允许用户输入潜在的祖细胞集合,大大提高了算法在大规模数据上的可扩展性。
在模拟数据上的测试显示,Carta在不同类型的分化图谱(二叉树、多分树、DAG结构)重建中均优于现有方法。特别是在非二叉树结构和DAG结构图谱中,Carta-Tree和Carta-DAG分别展现出显著优势,证明了其超越现有方法限制性假设的强大能力。
研究人员将Carta应用于哺乳动物躯干发育的体外模型——躯干样结构(TLSs)。该数据集包含14个谱系树,共6570个细胞,标注为6种观察到的细胞类型。Carta推断的分化图谱与已知的躯干发育进展特征高度一致,揭示了神经管中胚层祖细胞(NMPs)向体节和神经管谱系分化的动力学特征。
Carta-DAG图谱的关键发现是体节细胞的收敛分化——一个起源与神经管细胞共享祖先,另一替代途径则通过{内皮,体节}祖细胞与内皮细胞共享祖先。这与先前体内研究发现躯干内皮生成存在次要途径的证据相符。这种收敛分化现象在只能推断树状结构图谱的方法中无法被揭示。
Carta进一步揭示了NMPs的祖细胞动力学和分化偏好。图谱中包含多个已知发育阶段的NMPs:{NMP}细胞类型代表观察到的未分化祖细胞,{NMP,神经管,体节}细胞类型代表既能自我更新又在分化的NMP细胞。值得注意的是,所有这些祖细胞类型实例只能同时在DAG结构中被表示,而无法在树状结构中实现。
在小鼠造血系统数据中的应用进一步验证了Carta的优越性。Carta推断的分化图谱与造血作用的经典模型更为吻合,正确识别了髓系细胞的共同起源,并推断出髓母细胞这一中间祖细胞。与原始研究中基于距离启发式的方法相比,Carta的图谱与经典树结构的Robinson-Foulds距离更小,显示出更好的生物学一致性。
Carta还通过基因表达数据验证了推断祖细胞类型的准确性。研究发现,未分化细胞的预测潜能与其在基因表达空间中最接近的成熟细胞类型存在高度重叠,为Carta推断的祖细胞类型提供了正交验证。
尽管Carta表现出强大性能,研究团队也指出了其当前局限和未来发展方向。首先,Carta以谱系树为输入,但这些树并非总是准确的,未来可考虑在多目标优化框架中联合推断谱系树和分化图谱。其次,当前的差异度量基于最大简约法,未来可扩展为概率模型。最后,Carta假设祖细胞在分化后不会重新获得潜能,这一假设在癌症等异常系统中可能不成立,扩展Carta以模拟去分化过程将有助于癌症发展或干细胞重编程建模。
随着空间转录组学、单细胞多组学测序等新技术的发展,结合谱系追踪与空间和/或多组学数据将能更全面测量微环境、表观遗传调控和细胞谱系之间的相互作用。Carta在这一交叉领域有望发挥关键作用,为区分发育过程中细胞谱系、细胞分化和空间位置的相对贡献提供基础。
这项研究的意义不仅在于提出了一个优于现有方法的算法,更重要的是建立了一个定量评估细胞分化模型的系统框架。通过明确权衡图谱复杂性与拟合优度,Carta使研究人员能够基于数据客观选择最合适的分化模型,而不是依赖于先验的限制性假设。这一框架为在各种背景下更好地理解发育过程提供了新的机会,特别是在研究复杂生物系统的细胞命运决定机制方面具有重要价值。
Carta算法的成功开发标志着细胞分化图谱研究从启发式方法向定量化、系统化方向迈出了重要一步。随着单细胞技术的不断进步和发育生物学研究的深入,这种基于严格数学模型的推断框架有望成为未来研究细胞命运决定的标准工具,为理解正常发育和疾病状态下的细胞行为提供新的视角。

生物通微信公众号
微信
新浪微博


生物通 版权所有