单细胞多组学与机器学习揭示癌症干细胞动态可塑性的新范式

时间:2025年10月30日
来源:Briefings in Bioinformatics

编辑推荐:

本综述聚焦癌症干细胞(CSC)介导的治疗抵抗难题,系统阐述了单细胞RNA测序(scRNA-seq)、空间转录组学和CRISPR筛选等技术如何推动CSC研究从静态标记向动态功能视角的范式转变。研究揭示了干细胞特性受微环境信号(如AREG-ERBB2通路)、表观调控(EZH2/KDM5B)和细胞熵值共同塑造的机制,为开发靶向CSC可塑性的精准疗法提供了新方向。

广告
   X   

在癌症研究领域,有一个顽固的难题如同幽灵般困扰着科学家和临床医生:为什么肿瘤在经历放化疗等强力治疗后,依然会复发和转移?越来越多的证据指向了一群特殊的细胞——癌症干细胞(Cancer Stem Cells, CSCs)。这些细胞虽然只占肿瘤细胞的极少部分(通常<5%),却拥有强大的自我更新能力和异质性生成潜力,能够驱动肿瘤生长、促进转移,并抵抗各种治疗手段。传统上,CSCs主要通过表面标记物如CD133、CD44和ALDH1来定义和识别。然而,这种静态的标记物定义方式正面临严峻挑战,因为研究发现这些标记物并非CSCs所特有,其表达在不同肿瘤类型和条件下也缺乏一致性。
随着单细胞RNA测序(scRNA-seq)技术的飞速发展,科学家们得以在单个细胞分辨率下观察肿瘤的异质性,这彻底改变了我们对CSCs的理解。研究表明,干细胞特性更像是一个动态的、受环境调节的状态,而非固定的细胞身份。癌细胞可以在特定微环境信号或治疗压力下获得干细胞特性,也可以在适当条件下失去这种特性。这种可塑性使得CSCs能够灵活适应各种挑战,成为治疗失败和疾病复发的根源。
在这篇发表于《Briefings in Bioinformatics》的综述中,研究人员系统梳理了单细胞多组学和机器学习技术在解析CSC动态特性方面的最新进展。文章提出了一个重要的范式转变:从基于静态标记物的CSC定义转向关注其功能状态和可塑性。通过整合轨迹推断、RNA速率、熵值分析等计算方法,研究人员能够重建CSC的状态转变路径,识别高可塑性的过渡状态,这些状态可能代表了新的治疗机会。
为了开展这项综合性研究,作者团队主要利用了单细胞RNA测序(scRNA-seq)技术分析临床样本和模型系统,结合空间转录组学定位CSC在肿瘤组织中的空间分布,应用CRISPR筛选技术系统性鉴定CSC功能维持的关键基因,并开发多种机器学习算法(如OCLR、CytoTRACE等)从单细胞数据中推断细胞干性。这些技术方法的整合应用,使得研究人员能够从多个维度全面刻画CSC的特性。
超越传统癌症干细胞生物标志物:寻求新定义
传统CSC生物标志物如CD133、CD44和ALDH1在识别CSC方面存在明显局限性。这些标志物不仅在不同癌症类型间表达不一致,甚至在相同肿瘤内部也呈现异质性表达。单细胞转录组学研究挑战了这种静态标记物定义CSC的方式。例如,在膀胱癌研究中,虽然复发肿瘤中富含表达CD44和ALDH1A1的细胞,但scRNA-seq显示这些标记物并非局限于某个离散细胞簇,而是异质性地表达在一系列细胞状态中。更重要的是,功能性干细胞能力受EZH2和KDM5B等动态表观遗传调控因子控制。研究表明,CSC亚群通过EZH2介导的H3K27me3沉积维持干细胞特性,从而保持肿瘤抑制基因NCAM1的转录沉默。EZH2缺失会导致全基因组H3K27me3丢失、H3K27ac增加以及NCAM1去抑制,进而损害自我更新和肿瘤形成能力。
CSC的动态性还受到肿瘤微环境(Tumor Microenvironment, TME)的调节。通过整合单细胞和空间转录组学,研究发现肿瘤细胞从SPEM状态向CSC状态的转变主要由炎症性癌症相关成纤维细胞(inflammatory Cancer-Associated Fibroblasts, iCAFs)分泌的AREG驱动。配体-受体分析和功能验证表明,这种微环境信号激活ERBB2-AKT信号通路,导致SOX9和OLFM4上调,从而增强干细胞特性和化疗耐药性。这些发现直接证明CSC身份是一种短暂的、TME诱导的转录状态,而非固定的细胞实体。
肿瘤生态系统与癌症干细胞状态:单细胞转录组学研究的启示
空间和轨迹分析等计算方法能够映射细胞在组织内的物理组织方式,并重建其动态发育或治疗诱导的转变过程。这些方法揭示了CSC状态如何响应微环境信号和治疗压力而波动。CSCs存在于一个复杂的生态系统中,该系统包含CAFs、各种免疫细胞以及缺氧或营养缺乏的微环境。空间信号通过旁分泌信号调节干细胞特性,例如来自低α-SMA表达的iCAFs的AREG-ERBB2和WNT信号,驱动肿瘤进展和治疗抵抗。
破坏这些空间或微环境信号可以减弱干细胞特性。例如,干扰ROS相关通路可使CSC对放疗敏感,而阻断Jagged1可减少休眠CSC群体并延迟复发。重要的是,微环境诱导的干细胞特性是可逆的,这表明CSC不仅可能来自稀有克隆,也可能在适当选择压力下从非CSC状态动态产生。例如,在上皮间质转化(Epithelial-Mesenchymal Transition, EMT)状态中,即使是最间质的肿瘤细胞也可以在肺微环境中恢复上皮表型(Mesenchymal-Epithelial Transition, MET),尽管转移主要由混合EMT状态驱动。这种可塑性受ΔNp63(上皮维持)和TGF-β(间质促进)等因子调节,进一步支持了干细胞特性是一种短暂的、环境依赖性状态的观点。
基于此框架,研究人员提出了一个功能性的CSC分类体系:免疫逃避型CSC通过下调MHC-I、上调免疫检查点分子如PD-L1或分泌免疫抑制细胞因子如IL-10来主动抑制免疫识别;转移预备型CSC表达EMT特征,表现出增强的运动和侵袭能力;治疗持久型CSC通过静止、外排泵表达、增强的DNA损伤修复和免疫逃避等机制在化疗、放疗或靶向治疗中存活。
重写癌症干细胞生物学:细胞干性和伪时间作为功能标志物
随着生物技术的快速发展,单细胞分析现在使我们能够超越静态快照,研究细胞随时间的变化。这个过程被称为轨迹推断(Trajectory Inference, TI),旨在计算重建细胞在动态转变过程中可能遵循的路径,如获得干细胞特性(去分化)、单边或多边分化或治疗抵抗。与提供群体水平平均值的批量测序不同,单细胞数据能够通过比较数千个单个细胞之间的转录相似性来推断谱系关系。这些推断的轨迹可以揭示CSC状态如何出现、稳定或在选择压力和/或肿瘤进展下进化。
伪时间分析是核心方法之一,它将细胞沿虚拟轨迹排列,提示干细胞样细胞如何分化或恢复。像Monocle和STREAM这样的工具可以前瞻性地推断这些路径,而无需先验的细胞标记,从而保留过程的内在异质性。Monocle通过在降维表达数据上构建最小生成树(Minimum Spanning Tree, MST),然后沿MST的最长路径对细胞进行排序来重建单细胞轨迹。STREAM则采用弹性主图(Elastic Principal Graphs)通过优化降维空间中的图拓扑来推断分支轨迹。随后开发的Monocle2也支持无监督推断此类轨迹,通过引入反向图嵌入(Reversed Graph Embedding)和DDRTree降维方法,提高了处理大量细胞时的计算效率和可扩展性,显著增强了识别分支和多命运轨迹的能力。
与Monocle2相比,Monocle3用UMAP取代了t-SNE,能更好地保留全局几何结构。t-SNE在可视化局部细胞关系方面很有用,但常常扭曲更广泛的拓扑结构并将轨迹分割成看似不连续的簇。UMAP通过保持局部邻域和全局几何结构克服了这些限制,提供了发育和分化景观的更真实表示。Monocle3还用PAGA引导的主图学习取代了单一的MST轨迹,支持不连接的组件、环以及分支或汇聚谱系。进一步的进展包括基于地标的图构建以提高细胞数量上限,以及自动分支修剪、环闭合和基于投影的伪时间,共同产生更准确和生物学上更真实的轨迹。
一个相关概念是RNA速率(RNA velocity),它使用新转录的(未剪接)RNA与成熟的(已剪接)RNA的比率来预测细胞的潜在未来状态。如果特定基因的表达正在上升,RNA速率可以说明指向相应细胞命运的"箭头"。这不仅揭示了CSC当前的位置,也揭示了它可能去向何方。
熵值是评估细胞干性的另一个重要指标。基于熵值的方法的基本原理是,具有高干性的细胞表现出相对均匀的转录组,其中许多基因以可比水平表达。相比之下,更分化的细胞显示受限的转录组,其特征是一组有限的基因以显著升高的水平表达。基于这一概念,已经开发了几种基于熵值的方法来量化细胞分化潜能,包括StemID、SLICE、SCENT和SPIDE。这些方法已证明具有鲁棒性和广泛适用性。
SCENT引入的信号熵是一种复杂的转录熵形式,它测量细胞在蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络约束下的"未决性"或"可塑性"。具有高信号熵的细胞表现出广泛的命运潜力,通常存在于干细胞样或过渡状态,而低信号熵反映定型,信号局限于少数通路,谱系特异性基因在分化程序中表达。这种状态表明更分化、特化的命运。
CytoTRACE主要依赖于基因表达水平与细胞中表达基因数量之间的相关性来估计其干性。CytoTRACE可以评估单细胞数据中细胞的分化状态,而无需先验知识,利用基因计数特征(Gene Counts Signature)。它给每个细胞分配一个分数,分数越高表明干性越强。这种鲁棒的算法在大型数据集上得到验证,优于以前的干性预测方法。
这些生物信息学工具共同将干性的定义从固定身份转变为过渡的、环境依赖性的状态,由表观遗传重编程响应TME、自发性肿瘤进展和治疗期间的选择压力所塑造。
新兴的单细胞组学研究解析癌症干细胞景观
在不同癌症类型中,应用单细胞组学解析CSC异质性的代表性研究揭示了调控程序和治疗脆弱性,从而塑造了我们对CSC生物学的理解。
在结直肠癌中,单核RNA测序(single-nucleus RNA sequencing, snRNA-seq)和scATAC-seq被用来绘制从正常结肠上皮到癌前息肉和浸润性癌的分子和细胞连续谱。干细胞样上皮细胞通过TCF/LEF motif和ASCL2显示WNT/β-catenin信号通路的逐步激活,同时伴随KLF和HOX家族motif的丢失,这些转录程序与scATAC-seq揭示的染色质可及性变化密切对应,强调了协调的转录和表观遗传调控。晚期息肉的特征是干细胞样群体、调节性T细胞和preCAFs的扩增,而已形成的肿瘤则表现出耗竭T细胞和RUNX1调节的CAFs。关键发现包括GPX2作为早期氧化应激介质和HNF4A作为恶性转化的驱动因子。此外,DNA甲基化与染色质可及性变化呈负相关:获得可及性的区域往往表现出低甲基化,而关闭的染色质区域常常是高甲基化的。
一项补充研究将scRNA-seq与机器学习分类器整合,以识别来自家族性腺瘤性息肉病患者的类器官中的治疗抵抗细胞。这些分类器通过scRNA-seq基因表达谱进行训练,提取转录特征以区分DTP细胞(CSC的一个定义特征)和非DTP细胞,其预测通过体外药物反应实验得到验证。模型区分了DTP和非DTP,并实现了计算机模拟药物筛选。一个富含DTP特征的TC1簇出现,并优先考虑了包含YM-155(survivin抑制剂)、THZ2(CDK7抑制剂)和trametinib(MEK抑制剂)的组合方案。体外实验表明,YM-155或THZ2与trametinib具有协同作用,揭示了DTP特异性脆弱性,为CRC中的精准联合治疗提供了理论依据。
在肝癌中,整合scRNA-seq与基于OCLR机器学习算法的干性评分和伪时间轨迹,阐明了lncRNA HCG18如何通过调节CSC-巨噬细胞相互作用来协调血管侵犯。这种整合方法为靶向CSC驱动的侵袭和转移提供了系统框架。
在膀胱癌中,scRNA-seq和scATAC-seq描绘了肿瘤复发期间CSC的动态表观遗传和转录结构。单细胞分析揭示了复发肿瘤中富集的一个异质性CSC池,以升高的CD44和ALDH1A1表达以及表观遗传调节因子EZH2和KDM5B为特征。重要的是,EZH2通过沉默细胞粘附分子NCAM1来维持干性,从而促进侵袭性。EZH2敲低通过shRNA诱导NCAM1表达,降低CD44和N-cadherin,并减弱异种移植瘤生长。
伪时间轨迹重建暴露了一个连续的EMT程序,TCF7与经典EMT诱导因子SNAI1和ZEB1一起成为关键调节因子。scATAC-seq足迹分析证实了EMT进展细胞中TCF7 motif可及性增加,而功能实验表明TCF7敲低通过减少间质标志物VIM和SNAIL1来抑制迁移、侵袭和肿瘤扩张。细胞间通讯分析进一步确定了非经典WNT和Periostin信号作为复发特异性通路,介导CSC-CAF串扰,从而重现了晚期疾病的免疫抑制微环境。
在胰腺癌中,scRNA-seq研究了导管细胞异质性和侵袭轨迹,识别了一个以升高的OLFM4和HLA表达为标志的CSC样亚群(簇2)。伪时间分析追踪了其向表达CEACAM6和NEAT1的侵袭性簇3-5的转变。整合TCGA批量RNA谱产生了五个CSC相关预后基因(CXCL10、GMNN、LY6D、MET、RIC3)。肿瘤组织中升高的MET和LY6D蛋白水平强调了它们的转化潜力。
最后,在胃癌中,单细胞分析结合机器学习分析揭示了器官特异性转移的转录异质性。对原发性和转移性胃癌样本进行scRNA-seq,产生了近43,000个单个细胞的转录组。然后应用机器学习算法,包括无监督聚类(Seurat/Louvain)、伪时间轨迹推断(Monocle2)和基于拷贝数变异分析的克隆推断(CopyKAT),将恶性和免疫细胞分类为不同的亚群并重建它们的进化路径。单细胞分析与计算模型的这种整合揭示了四种恶性上皮程序(侵袭/血管生成、EMT、休眠、CSC样)和器官特异性免疫耗竭特征,从而暴露了 underpinning 转移行为和患者预后的转录异质性。
破坏癌症干细胞可塑性:功能筛选、分子机制和治疗意义
具有单细胞读数的CRISPR扰动筛选改变了我们研究基因功能和调控网络的能力。这些是大规模的实验方法,其中系统性的基因敲除、敲低或激活被引入细胞群体,以揭示特定基因如何影响细胞行为。通过并行应用这些扰动到数百或数千个基因,研究人员可以以高通量方式绘制遗传依赖性、调控回路和治疗脆弱性。特别是,单细胞CRISPR筛选(single-cell CRISPR screening, scCRISPR)技术将混合CRISPR文库与高内涵表型分析相结合,能够在单细胞分辨率下解析复杂的细胞状态和相互作用。
一个说明性例子是最近的体内Perturb-seq研究,该研究使用CRISPRi与scRNA-seq来解析胶质母细胞瘤(虽然不是癌,但用来说明这些方法如何更广泛地应用于上皮癌之外)的肿瘤内在和微环境驱动因子。通过将混合sgRNA文库递送到胶质母细胞瘤模型中并用体内Perturb-seq分析反应,研究表明DNA损伤修复基因的缺失使肿瘤对放疗敏感,而微环境基因的扰动改变了配体-受体信号、细胞因子分泌和巨噬细胞吞噬作用。这些发现表明,肿瘤内在通路和周围微环境都有助于放疗抵抗。虽然这样的scCRISPR平台以高分辨率揭示遗传脆弱性和治疗反应调节因子,但它们依赖于解离的细胞,因此失去了细胞-细胞相互作用的空间背景。
Perturb-FISH通过将混合CRISPR干扰与完整肿瘤切片中的空间转录组学相结合来解决这一局限性,从而保留组织架构。这种方法使研究人员能够测量基因敲低的直接效应以及对肿瘤微环境中邻近细胞的间接涟漪状后果。在黑色素瘤异种移植模型中,该研究绘制了特定扰动如何重塑局部免疫状态和炎症信号。追踪扰动如何通过空间生态位传播的能力为未来识别肿瘤可塑性和潜在CSC支持回路的调节因子提供了一个强大的框架。
建立在功能性空间扰动方法的基础上,观察性空间转录组学研究进一步阐明了CSC状态如何在肿瘤生态位内组织。最近一项研究揭示了口腔鳞状细胞癌中区分肿瘤核心和侵袭前沿的保守转录程序。前沿富含间质样CSC,而上皮样CSC主导核心。重要的是,前沿程序与不良预后和升高的EGFR信号相关,强调了空间CSC异质性如何影响肿瘤进展和治疗脆弱性。
除了单个读数,最近的进展越来越多地将多个单细胞组学与CRISPR扰动和基于AI的分析相整合。scCRISPR与ATAC-seq、蛋白质组学或成像的组合将基因扰动与调控、表型和空间变化联系起来,而新兴的单细胞DNA甲基化技术将此框架扩展到表观遗传层。例如,一项2025年的研究引入了Multiome Perturb-seq,它将传统的scCRISPR筛选扩展到同时捕获每个扰动后基因表达和染色质可及性的变化。该研究揭示,染色质重塑因子的扰动对转录和可及性诱导了不同的、有时是非耦合的效应,从而揭示了将表观基因组变化与转录结果联系起来的调控程序。这提供了一个多组学整合的清晰例子,在同一细胞中将转录和表观遗传反应与基因扰动联系起来。
整合多组学与人工智能:迈向统一的癌症干细胞图谱
虽然scRNA-seq仍然是一项基础技术,但与额外的单细胞模式的整合增强了我们表征CSC状态的能力。scATAC-seq增加了染色质可及性谱,有助于识别活跃的转录程序,而CITE-seq和空间转录组学提供了互补的蛋白质表达和位置背景。单细胞组学技术与人工智能(重点放在机器学习及其子集深度学习)的融合正在彻底改变生物医学研究,特别是通过推进我们对细胞异质性和癌症的理解。
单细胞数据是海量的、有噪声的、高维的且仍然稀疏的,这对传统方法难以解决的关键分析挑战提出了严峻考验。机器学习/深度学习算法对于从这些复杂数据集中提取高级特征、识别复杂模式和构建预测模型是不可或缺的。在单细胞组学中,机器学习/深度学习可以通过预处理(例如插补、归一化)解决数据复杂性,如"丢失事件"和"批次效应",并且已经在细胞类型识别、轨迹推断和多组学/空间数据整合等下游任务中表现出色。
对于CSC研究,机器学习/深度学习开始克服CSC识别中长期存在的挑战,因为CSC通常缺乏充分理解的形态学特征或独特且真正特异性的生物标志物。深度学习模型,包括卷积神经网络(Convolutional Neural Networks, CNNs)和条件生成对抗网络(Conditional Generative Adversarial Networks),现在能够实现自动、无标记的CSC形态识别和CSC命运预测。最近的进展也引入了用于整合多模态单细胞数据的新计算框架。
例如,基于网络的整合聚类(Network-based Integration Clustering, NIC)已被开发用于联合分析scRNA-seq和表观基因组数据以改进细胞类型识别。NIC通过自适应学习细胞相似性网络并通过联合非负矩阵分解提取共享特征来解决单细胞数据固有的稀疏性和异质性。跨多个数据集的基准测试表明,NIC显著优于现有的整合方法,能够更准确地识别细胞类型和提取具有生物学意义的特征基因。这种整合方法有望通过捕捉干性的转录和表观遗传维度来改进CSC分类,从而有助于更全面地看待CSC身份和可塑性。
此外,人工智能加速了CSC生物标志物的发现,并能够优先排序药物,识别诱导CSC分化的化合物,为靶向和更高效的治疗提供了有前景的新途径。
CytoTRACE2是一个可解释的深度学习框架,它从scRNA-seq数据预测分类潜能状态和绝对发育潜能。与产生数据集特定相对排序的早期轨迹推断工具不同,CytoTRACE2将预测锚定到六个典型潜能类别(多能、多能、寡能、单能、分化),实现跨数据集可比性。其核心架构是基因集二元网络(Gene Set Binary Network),它通过激活或停用单个基因来学习紧凑的、与潜能相关的基因程序,从而提供直接的可解释性。
大型语言模型(Large Language Models, LLMs)开始通过将细胞和生物信息表示为"细胞句子"来改变单细胞组学领域,使LLMs能够"读取"和"写入"生物数据。这种方法,以Cell2Sentence-Scale (C2S-Scale)为例,将高维基因表达数据转换为自然语言,使复杂的单细胞数据更易于访问和解释。这些基于Transformer的基础模型,如scGPT和scBERT,在庞大数据集上训练以学习基因-基因相互作用和细胞模式。
例如,C2S-Scale可以自动生成scRNA-seq数据的生物学摘要,并以纯英语回答复杂的生物学问题,实现对话式单细胞分析。类似地,ChatNT使用自然语言解释转录本和蛋白质,通过允许直接查询细胞状态或药物反应进一步加速发现和个性化医疗。这些策略有望超越基于标记的CSC定义,迈向统一的、多参数的CSC图谱,一个捕捉跨不同癌症类型的可塑性、背景和治疗相关性的图谱。
未来展望:绘制和靶向癌症干细胞可塑性
CSC的动态性质仍然是肿瘤学的一个主要挑战,特别是它们通过可逆状态变化逃避当前治疗方法的能力。为了解决这个问题,研究人员提出了创建一个"跨癌CSC可塑性图谱",一个基于整合的单细胞、空间和功能数据集构建的参考框架,捕捉跨癌症和治疗条件的关键过渡状态。
这样的图谱将能够(i)识别谱系轨迹和高熵过渡点作为治疗瓶颈,(ii)合理设计状态特异性干预措施(例如阻止去分化,靶向静止细胞中的代谢依赖性),以及(iii)预测治疗诱导的可塑性路线以帮助克服耐药性的逃逸机制。通过解码CSC状态转变和脆弱性的逻辑,这种方法可以改变我们识别和消除治疗失败的细胞根源的方式。
然而,承认该领域"当前的局限性"很重要。伪时间分析在绘制癌细胞进展和识别关键转变点方面具有重要作用。例如,一项关于卵巢癌的研究利用伪时间轨迹分析来揭示与癌症进展相关的基因,提供了干预的潜在靶点。然而,挑战在于将这些基因关联转化为可操作的治疗策略。虽然伪时间分析为CSC的进展和可塑性提供了宝贵的见解,但将这些发现转化为有效的疗法是一项持续的任务。靶向CSC的动态和异质性性质需要多方面的努力,当前的研究正在积极探索这些途径。需要持续的研究来开发能够有效解决通过伪时间分析识别的CSC适应性的疗法。
结论
CSC表型是动态的,由治疗诱导的谱系可塑性、表观遗传重编程和生态位特异性信号驱动,而非固定的标记物或层次结构。最近的单细胞和空间进展——现在包括体内Perturb-seq和多组学CRISPR筛选,如Multiome Perturb-seq——绘制了肿瘤内在程序和微环境相互作用在治疗下如何共同进化,以单细胞分辨率识别放疗和化疗抵抗以及免疫逃避的调节因子。因此,研究人员认为靶向状态转变和回路水平调节因子(染色质重塑因子、EMT/代谢开关、配体-受体轴)将比静态CSC清除更有影响力,特别是当与考虑核心与侵袭前沿程序的空间知情策略配对时。展望未来,将这些因果性、多模态读数与纵向采样和计算模型整合,应加速向患者分层干预的转化。
虽然强大,当前方法仍面临局限性——批次/技术变异性、不完整的时间采样以及解离分析中空间背景的丢失——现在正通过空间分辨扰动和整合多组学(将染色质可及性与同一扰动细胞的转录结果联系起来)来缩小。因此,该领域应优先考虑(i)纵向、多组学单细胞设计以捕捉治疗诱导的轨迹;(ii)CSC生态位的空间锚定模型;以及(iii)连接肿瘤和基质区室的因果筛选——这些方向得到关于治疗诱导干性和谱系可塑性的新兴工作的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有