单细胞分辨率解析肿瘤中染色体外DNA的克隆进化与选择

时间:2026年2月14日
来源:Genome Biology

编辑推荐:

本文介绍了一种名为ecSingle的新型计算方法,它能够利用标准的单细胞RNA测序(scRNA-seq)数据,在单细胞水平检测和分析携带癌基因的染色体外DNA(ecDNA)。研究揭示了ecDNA在肿瘤内的异质性、与特定转录细胞状态的关联,以及在复发肿瘤中从罕见克隆扩增为主导克隆的动态过程,为理解ecDNA在肿瘤进化、异质性和治疗抵抗中的作用提供了新视角。

广告
   X   

背景

基因组改变是癌症的一个标志,而染色体外DNA(ecDNA)已成为癌基因选择、肿瘤生长和耐药性的关键来源。然而,人们对ecDNA的肿瘤内异质性和克隆选择知之甚少。局部扩增是癌症中基因组小区域(通常包含癌基因)的拷贝数增加,其过表达可驱动肿瘤生长。其中一种引人注目的类型就是ecDNA,它形成于常规染色体之外的环状DNA结构。ecDNA扩增子在细胞有丝分裂过程中可以不等分离,从而能够快速上调或下调拷贝数水平。这种动态行为使癌细胞能够迅速对治疗和选择压力做出反应。研究发现,不同癌症类型中ecDNA的发生率存在显著差异,例如在胶质母细胞瘤中高达60%,在髓母细胞瘤中为18%,并且常与癌基因(如60%的ecDNA阳性样本中的EGFR和37%的ecDNA阳性样本中的MYCN/MYC)扩增相关。ecDNA的存在与更具侵袭性的疾病相关,例如,ecDNA阳性的髓母细胞瘤患者在5年内死亡的可能性是ecDNA阴性患者的三倍。
尽管ecDNA具有高度的肿瘤内异质性,但直到最近,其基因组学研究仍在整体肿瘤水平进行。近年来,通过scEC&T-seq和scCircle-seq等复杂的分子生物学技术,使得在单细胞水平进行ecDNA的基因组分析成为可能。这些研究证明,在同一肿瘤样本的不同细胞中,ecDNA扩增子的大小和频率各不相同。这种异质性表明,仅用“有”或“无”来判定肿瘤内ecDNA的存在,是对ecDNA分子多样性的过度简化。然而,这些方法需要对珍贵的样本(包括物理分离单细胞和DNA扩增)进行繁琐的分析,由于材料稀缺,这一过程通常并不可行。本研究旨在开发一种名为ecSingle的方法,直接从现有的单细胞RNA测序数据中检测和研究ecDNA。

结果

ecSingle整合单细胞中的等位基因失衡和异常表达以识别推定的ecDNA片段

为了直接从scRNA-seq样本中识别与ecDNA兼容的局部扩增,该方法采用了两个关键指标:异常表达(OE)和等位基因失衡(AI),分别定义为显著更高的表达水平和B等位基因频率的显著偏离。这些指标提供了关于一个区域基因组和转录组状态的信息,我们将其与每个细胞簇的细胞类型注释进行整合。
等位基因失衡的计算通过对所有细胞进行基于SNP的计数分析来完成。ecSingle可以使用基于群体的常见SNP,或者在有条件时使用来自患者的杂合生殖系SNP。随后,在每个细胞的每个SNP位置确定B等位基因频率(BAF)。为了克服scRNA-seq数据的稀疏性,ecSingle执行细胞聚类以获得稳健的BAF估计。
稳健的BAF估计依赖于支持SNP的最少读段数。ecSingle会估算所需的SNP覆盖度截断值,以最小化二倍体区域BAF的方差。BAF值被聚类以区分肿瘤细胞和正常细胞,并为每个杂合SNP计算平均BAF。
肿瘤特异性杂合SNP的BAF值被用于执行全基因组拷贝数分割。候选的局部扩增区域从等位基因失衡片段中识别出来,这些片段表现为肿瘤特异性BAF片段与正常细胞相比的偏离。这些片段可能源于高水平扩增或由缺失导致的杂合性丢失。
为了识别在具有等位基因失衡的片段上上调的基因(这是ecDNA的一个标志),ecSingle使用差异表达基因进行肿瘤特异性异常表达分析。肿瘤特异性基因表达的分布可能因环境RNA(样品制备过程中释放的无细胞mRNA)而发生偏斜,因为高表达的基因更有可能在整个数据集中被检测到。研究发现,使用CellBender去除环境RNA可以提高信噪比。
与高水平局部扩增(也称为均匀染色区(HSR))相比,ecDNA通常由于在子细胞间的不等分离而表现出更高的细胞间变异性。为此,我们计算了一个表达方差异常值指标,用于识别候选ecDNA细胞群体中,其基因表达水平和方差与对照细胞群体有显著差异的基因组片段。
由于ecSingle使用了两个不同的指标——等位基因失衡和异常表达,因此该方法也可以识别出杂合性丢失区域(LOH;强等位基因失衡,无异常表达)以及具有基因表达上调的杂合区域(无等位基因失衡,高异常表达)。与ecDNA类似,这些区域可以在肿瘤亚群内进行分析,从而以高分辨率追踪和分析基因组及转录异质性。

在含有ecDNA和HSR的COLO320细胞系上评估ecSingle

为了评估ecSingle在检测ecDNA并将其与染色体扩增区分开来的性能,研究使用了一对源自同一患者的细胞系COLO320:含有ecDNA上MYC的COLO320DM,以及MYC以HSR形式存在于高水平染色体扩增中的COLO320HSR。这两个细胞系中扩增子的拷贝数已被证明是相似的,这支持了将它们用作ecDNA和HSR之间受控比较的模型。
由于这些细胞系仅包含肿瘤细胞,没有正常细胞进行比较分析,此处将等位基因失衡定义为BAF谱与基因组其余部分有显著差异的片段。对COLO320DM的分割在预期的含MYC区域(chr8:126432938–127901762)识别出等位基因失衡。尽管COLO320HSR细胞系中该片段内所有基因(包括MYC)的表达都很高,但COLO320DM中的表达水平更高,这表明了ecDNA对表达的特异性影响。
正如ecDNA含有的细胞中已知的不等分离和肿瘤内异质性所预期的那样,我们观察到COLO320DM具有更大的变异性,这表明与位于HSR上的相同基因相比,位于ecDNA分子上的基因具有更高的异质性。这可能反映了单个细胞间拷贝数的差异,与ecDNA的动态和不等分离一致。在全基因组范围内,我们的表达方差异常值指标计算出该片段在COLO320DM和COLO320HSR之间的欧几里得距离为0.63,而第二高的全基因组欧几里得距离为0.06。在九个含有ecDNA的样本中,我们确定了0.5的欧几里得距离阈值和0.25的表达方差阈值,作为识别很可能位于染色体外的片段的稳健阈值。
为了进一步证实距离度量,我们将基因组划分为1.5 Mb的片段,并计算了COLO320DM和COLO320HSR之间每个片段的方差和欧几里得距离。我们发现ecDNA片段在COLO320DM细胞中的方差为0.32,导致其欧几里得距离是第二高距离片段的三倍,这支持了其独特的转录谱。这些结果支持了ecSingle在单细胞内检测ecDNA特异性扩增的能力,并且表达方差在ecDNA和染色体扩增之间存在差异。

从癌症单细胞数据中识别含癌基因的ecDNA

为了评估在癌症患者材料上的性能,我们将ecSingle应用于一个具有可用scRNA-seq数据的患者队列。对于一个胶质母细胞瘤样本CE34,我们识别了7号、10号、19号和20号染色体的全染色体失衡。
ecSingle在CE34的7号染色体上识别出两个具有不同等位基因失衡的片段:一个大的全染色体区域显示BAF约在0.33/0.66,提示为三倍体;另一个是位于chr7:54295003–56099902的局灶片段。后者显示出显著的等位基因失衡偏移,BAF值接近0(0.05/0.95),表明该区域可能存在缺失或高水平扩增。
该区域总共包含22个基因,从54.5 Mb处的脂质调节因子VSTM2A到56.1 Mb处的蛋白激酶PHKG1。在这22个基因中,有10个在样本中表达足够高,能够被ecSingle检测到,其中包括EGFR——已知在大约50%的胶质母细胞瘤肿瘤中高度扩增的基因。与正常细胞相比,这10个基因在肿瘤细胞中均显著上调。这些发现有力地支持了该区域存在高水平扩增,很可能是ecDNA,源于其高拷贝数和表达。
为了评估分割的准确性,我们对同一肿瘤样本进行了全基因组测序(覆盖度为84×),并使用最先进的工具AmpliconArchitect来检测ecDNA片段。该方法发现区域chr7:54212672–55359360为环状ecDNA,其两个断点与ecSingle基于scRNA-seq识别的区域差异小于800 Kb。这表明ecSingle成功地识别出了与WGS检测相同的ecDNA区域。
虽然EGFR是胶质母细胞瘤中最常扩增的癌基因,但我们在另一个胶质母细胞瘤样本CE65中也识别出PDGFRANFIB在ecDNA上扩增,两者均与异常表达相关。
ecSingle的等位基因失衡和异常表达方法除了识别ecDNA片段外,还可以识别其他转录失调模式。例如,我们识别出一个显示(双等位基因)转录上调的区域(CE34中的GPM6A),另一个显示由于杂合性丢失导致的等位基因失衡的区域(CE34中的PTEN),以及具有轻微等位基因失衡和异常表达的区域,我们将其归类为低拷贝数染色体增益(CE34中的GNAS和CE65中的EGFR)。
为了评估ecSingle在其他癌症类型上的性能,我们在来自Riemondy等人和Gold等人的髓母细胞瘤样本上测试了该方法。我们在两个属于SHH亚组的髓母细胞瘤样本(801和MB019)中识别出了MYCN在ecDNA上(801的可用拷贝数数据支持MYCN扩增)。ecSingle在来自Gold等人的另外三个具有足够scRNA-seq覆盖度但ecDNA状态未知的髓母细胞瘤样本的scRNA-seq数据中未检测到ecDNA。作为支持,我们在这些样本中没有发现MYCMYCN基因表达上调的证据。

通过长读长单细胞RNA测序增强ecDNA检测

分割在很大程度上依赖于覆盖的SNP数量,而SNP数量又取决于细胞间的测序深度以及读长。然而,绝大多数单细胞数据集由短读长测序组成,这限制了候选SNP的数量。
为了理解读长对用于分割的信息性SNP数量的影响,并测试更高的覆盖度在多大程度上可以补偿短读长的不足,我们对样本CE26的一个10x基因组学文库进行了长读长测序。为了评估Oxford Nanopore Technologies长读长测序在此用例中的实用性,我们还对该样本进行了全基因组测序,并使用AmpliconArchitect分析了数据。尽管该样本在某些区域(包括7号染色体)具有高度复杂性,但AmpliconArchitect片段与使用长读长scRNA-seq数据集通过ecSingle识别的片段显示出一致性。ecSingle方法在该患者中检测到两个ecDNA片段,其中一个在肿瘤细胞中包含EGFR的异常表达,支持了该样本的ecDNA状态。
除了两个ecDNA区域,ecSingle分割还在7号染色体上识别出另外两个片段的等位基因失衡。强烈的等位基因失衡加上这些片段的低表达提示为LOH,这一发现得到了全基因组测序分析的支持。AmpliconArchitect发现了一个额外的包含在ecDNA扩增子中的小区域(10.5–10.8 Mb,362 Kb),这个区域太小,无法在scRNA-seq数据中检测到。
为了评估长读长测序的效果,我们比较了同一样本的三种读长。这些包括:1)短读长;常规Illumina短读长91 bp(10x基因组学推荐);2)中读长;平均读长为293 bp的Illumina短读长测序;3)长读长;中位读长为1,144 bp的ONT长读长测序。
我们将信息性SNP定义为在样本中具有足够覆盖度(最小300个细胞)的杂合SNP数量。对三个数据集中的每一个进行下采样,并确定信息性SNP的数量,从而拟合多项式回归。
我们发现信息性SNP的数量高度依赖于读长,这符合预期。在最高测序深度下,短读长数据集恢复了中读长数据集识别出的SNP的34%(3645/10572),这证明了更长测序读长的附加价值。此外,我们估计短读长数据集将在约3,700个SNP处达到饱和。相比之下,我们估计长读长数据集在相同测序覆盖度下将达到41,000个信息性SNP,与标准短读长集相比提供了10.9倍的转录本覆盖度增加。

在单细胞水平解析ecDNA的肿瘤内异质性

与依赖亚克隆推断的批量RNA-seq或全基因组测序相比,单细胞数据的一个主要优势是能够解析肿瘤内异质性。相似的肿瘤亚克隆倾向于在基因表达和基因组水平上聚集在一起,我们利用这一点,通过基因组感知的单细胞聚类技术(例如InferCNV)对细胞进行分组,如下所示。或者,可以使用基于基因表达的聚类作为输入。
为了探索外部单细胞数据集中的肿瘤内异质性,我们利用了来自Bhaduri等人的胶质母细胞瘤样本的10x基因组学scRNA-seq数据集。在一个具有足够测序覆盖度的代表性样本SF11247中,我们最初进行了无偏的伪批量肿瘤分析。该分析揭示了EGFR周围一个同时具有等位基因失衡和异常表达的区域,提示存在ecDNA,但在等位基因失衡和异常表达上分布广泛,表明存在异质性肿瘤群体。通过k-means亚克隆聚类,我们识别出两个主要的肿瘤亚克隆。
主要的拷贝数事件在克隆间共享,包括13号染色体的缺失、7号染色体的全染色体扩增以及19号染色体短臂的扩增。亚克隆1与亚克隆2的不同之处在于有3号染色体的扩增且没有10号染色体的缺失,而亚克隆2则表现出较小的拷贝数变异。将肿瘤细胞分离为亚克隆后,我们发现亚克隆1没有ecDNA迹象,而亚克隆2同时表现出等位基因失衡和异常表达,提示存在ecDNA。
我们研究了患者NVB33的ecDNA克隆进化,该患者在原发性肿瘤和复发时间点都有scRNA-seq和全基因组测序数据可用。在这里,我们发现较小的亚克隆1表现出高水平的含EGFR的ecDNA(EGFR周围区域存在强等位基因失衡和异常表达),而较大的亚克隆2在该区域没有显示局部扩增的迹象。引人注目的是,我们发现相同的含ecDNA细胞在同一患者的复发样本中形成了克隆。我们注意到复发样本中的ecDNA水平较低(等位基因失衡和异常表达减少),提示ecDNA阳性克隆经过克隆选择后,由于治疗导致拷贝数下调。类似的动态此前已在ecDNA阳性细胞系中显示,其中治疗导致ecDNA水平迅速下降。
除了基因组异质性,胶质母细胞瘤肿瘤还具有广泛的转录可塑性和异质性,包括四种细胞状态:星形胶质细胞样(AC-like)、间充质样(MES-like)、少突胶质前体细胞样(OPC-like)和神经前体细胞样(NPC-like)。为此,我们接下来研究了细胞状态与亚克隆水平ecDNA的关联程度。在大多数胶质母细胞瘤中,所有四种状态都存在,但比例不同。与此一致,我们识别出SF11247中存在所有四种状态。这在克隆S1(ecDNA阴性)中得以重现,主要由OPC样和AC样细胞状态主导,MES样和NPC样状态的贡献较小(分别为28%、56%、5%、11%)。有趣的是,我们发现ecDNA阳性克隆(S2)中的细胞状态发生了显著转变,主要由AC样和MES样细胞状态主导。
在NVB33中观察到了类似的模式,其中原发性肿瘤中的ecDNA阳性亚克隆以AC样细胞为主,而复发样本主要包含AC样和MES样细胞。我们注意到,在这些亚克隆的ecDNA上存在的EGFR已知在AC样肿瘤中富集。在来自患者NVB33的配对原发和复发样本中,我们没有发现ecDNA片段大小发生变化;然而,先前的研究表明ecDNA的结构会随时间演变。
这些发现强烈表明克隆选择和转录可塑性共同促进了这些样本的进化。细胞状态特异性的ecDNA存在可能有利于某些细胞状态,例如胶质母细胞瘤中的AC样和MES样状态,这可能由EGFR驱动。这一观点得到了先前基于整体肿瘤研究的支持,即AC样细胞状态与高水平的EGFR扩增相关,而OPC样肿瘤则表现出低水平。这种现象可能源于ecDNA的亚克隆起源(即ecDNA在特定肿瘤亚克隆内形成),或者克隆起源后的不等分离(导致某些亚克隆中ecDNA丢失)。需要进一步的研究来阐明这些动态,这对于理解ecDNA的行为及其在肿瘤进化中的作用至关重要。总之,我们证明可以在单细胞水平上解析肿瘤内异质性,揭示胶质母细胞瘤中基因组和转录程序的联合作用。

讨论

越来越清楚的是,ecDNA在驱动多种癌症的肿瘤内异质性和癌症进展方面具有高度相关性。目前的方法主要基于批量全基因组DNA测序,这不允许在亚克隆水平进行敏感的分析和检测含ecDNA的肿瘤细胞。这一点尤其重要,因为最近发现含ecDNA的肿瘤细胞经常驱动复发。此类细胞可能在原发性肿瘤中低于检测水平,从而混淆并可能误解癌症患者的肿瘤进化。在这里,我们展示了一种计算方法ecSingle,能够利用标准的scRNA-seq方法在单细胞水平识别和探索ecDNA。我们发现了亚克隆含ecDNA肿瘤细胞的显著例子,其中一个案例中原发性肿瘤中的次要ecDNA阳性亚克隆扩增成为肿瘤复发中的主导克隆。已发现ecDNA分子在子细胞间以非孟德尔随机方式分离。作为支持,我们发现了多个证据表明肿瘤细胞间ecDNA含量的差异。这得到了更繁琐的补充方法的支持,例如scEC&T-seq和scCircle-seq。虽然这两种方法在DNA和RNA上都使用了复杂的分子生物学方法,但它们无法应用于现有可用的scRNA-seq数据,这在大多数实验设置中是一个主要瓶颈,特别是对于有限的患者来源肿瘤材料。
我们承认,我们的分析仅限于ecDNA存在伴随转录上调的病例,而这种情况并非普遍存在。即使在转录上调的ecDNA阳性病例中,表达水平也可能独立于拷贝数而变化,这一现象先前由Nathanson等人报道过。
ecSingle的一个优势是能够识别转录上调与等位基因特异性上调(例如在ecDNA形成中),因为转录上调通常没有主要的等位基因失衡。此外,我们的方法还能够识别经历杂合性丢失并伴随表达降低的基因。
与基因组测序方法相比,使用scRNA-seq的另一个优势是能够识别和整合转录细胞状态及程序与ecDNA发现。我们发现癌基因携带的ecDNA阳性克隆与胶质母细胞瘤中的转录细胞状态之间存在显著的共现,表现为ecDNA阳性肿瘤细胞中MES样和AC样状态的增加。这与先前的研究一致,这些研究显示EGFR扩增的胶质母细胞瘤与“经典型”和AC样细胞状态聚类。虽然这些发现暗示了EGFR驱动的机制,但可以想见,ecDNA分子的存在也会影响转录细胞状态。我们注意到,我们识别亚克隆簇的方法基于有限数量的肿瘤样本,需要更大的队列来验证这些发现。
我们利用了ecDNA的四个特性:异常表达、等位基因失衡、异常表达方差和克隆状态。基于等位基因失衡的拷贝数改变区域分割是识别ecDNA序列的重要步骤。有趣的是,我们发现一个简单的表达水平和方差度量能够区分ecDNA和HSR,这可能是由于ecDNA阳性肿瘤中不等分离导致的更高肿瘤内异质性。然而,我们注意到,需要更大、注释更好的队列来进一步验证ecSingle在检测ecDNA以及区分ecDNA和HSR方面的敏感性和特异性,以及我们经验性阈值的有效性。正如预期,我们发现读长显著影响信息性SNP的数量,这是等位基因失衡评估的关键指标。当前的scRNA-seq方法依赖于3‘端捕获,这导致在转录本的非捕获区域SNP覆盖度有限。我们还发现测序深度很重要,它影响在每个SNP位置估计BAF的能力。此外,信息性SNP的数量受样本中剪接水平的影响,而剪接水平取决于使用的是细胞核数据还是全细胞数据。由于内含子覆盖的人类基因组区域是外显子的4-5倍,未剪接的RNA提供了显著更多可供检测的潜在SNP。
我们注意到,肿瘤细胞和正常基质细胞的初步分离提高了识别ecDNA的敏感性。正常细胞的鉴定可能是一个挑战来源,特别是当由于基因表达相似和拷贝数变异较少导致正常细胞和肿瘤细胞之间的转录差异很小时。我们方法的一个局限性是需要较大的片段以及这些片段内存在具有可检测基因表达和可确定生殖系SNP的基因。此外,尽管ecSingle利用了几个关键特征从scRNA-seq中识别ecDNA,但仍应进行基于DNA的后续验证实验,以进一步支持ecDNA分子的存在。
先前已观察到肿瘤细胞通过细胞外囊泡转移DNA。这种现象表明,ecDNA分子也可能从含ecDNA的肿瘤细胞转移到其他肿瘤亚克隆,甚至可能转移到肿瘤微环境中的正常细胞。鉴于ecDNA的小型化和染色体外性质,这些扩增子理论上可以很容易地整合并影响受体细胞中的基因表达。在未来的研究中,ecSingle可用于检验这一假设,例如,利用板式scRNA-seq数据来消除来自其他细胞的潜在污染。

结论

我们开发并应用了一种名为ecSingle的新方法,该方法能够利用两个关键特性:基于SNP的等位基因失衡和异常表达,从标准的scRNA-seq数据中检测携带癌基因的ecDNA。值得注意的是,我们证明了使用长读长单细胞测序在提高信息性SNP分辨率方面的优越性。在多个样本中观察到亚克隆ecDNA,将ecDNA的存在与特定的转录状态联系起来,突出了基因组学与细胞后果之间的相互作用。此外,ecSingle使我们能够在脑肿瘤中识别出从原发到复发过程中癌基因携带的ecDNA克隆进化和选择的例子。这些发现证明了解析肿瘤内异质性以识别ecDNA的亚克隆存在的重要性,并且这是理解克隆扩增和治疗抵抗的肿瘤的一个重要特征。

生物通微信公众号
微信
新浪微博


生物通 版权所有