研究背景
非整倍体是指细胞中染色体数目异常的情况。在人类中,存在一些可存活的三体情况,但唯一的完全单体是 X 染色体单体(45,XO),其可能由 Y 染色体(chrY)丢失导致。chrY 由男性特异性区域(MSY)和假常染色体区域(PAR)组成,MSY 包含 X - 转座、X - 退化和扩增子等基因群,其中部分基因在人体多种组织包括 hESCs 中广泛表达。
Y 染色体缺失(LOY)的机制尚未完全明确,推测与 Y 染色体缺乏着丝粒蛋白 B 有关,这会导致染色体在分离过程中更易丢失。LOY 在衰老、癌症以及小鼠胚胎干细胞中均有发现,在人类多能干细胞(hESCs)中也有报道,但此前其在 hESCs 中的程度和影响未得到充分研究。
研究方法
- 数据采集与归一化:从 NCBI 的序列读取存档(SRA)下载 RNA-seq 样本,利用 Run Selector 工具筛选。通过 STAR aligner 将样本分别比对到人类 GRCh38(v.42)基因组和小鼠 GRCm39 基因组,再用 XenofilteR 工具排除来自小鼠胚胎成纤维细胞的 reads。使用 featurecounts 工具生成计数表,经 TPM 归一化后,计算 Y 染色体特异性基因表达比值(chrY ratio)。
- SNP 鉴定与等位基因表达分析:利用 GATK 工具处理已对齐的 BAM 文件生成 VCF 文件,包含样本的变异信息。用 R 语言的 vcfR 包生成归一化 SNP 矩阵,计算距离矩阵,根据样本聚类情况判断样本标签是否正确。对于可能误标样本,计算 X 连锁基因的等位基因比率以确定性别。
- TP53 突变鉴定:运用 RNA2CM 管道和 COSMIC 参考注释,分析 RNA-seq 样本中 TP53 基因突变率。
- eSNP - 核型分析与染色体畸变计算:采用 eSNP-Karyotyping 方法,利用 eSNPkaryotyping R 包分析具有足够 SNP 覆盖度样本的 VCF 文件,生成移动平均图,计算染色体畸变率。
- 差异表达分析:计算 LOY 与野生型(WT)样本中各基因的表达差异倍数,用 Mann-Whitney 非参数检验计算显著性,经 FDR 校正。使用 fgsea 包进行基因集富集分析。
- DBA 样本的伪批量 RNA 分析:下载相关研究的样本和计数表,筛选符合条件的样本,将来自同一患者或健康个体的单细胞合并为伪批量样本,进行归一化和分析。
研究结果
- hESCs 中 LOY 的分析:分析 834 份男性 hESC 样本和 1827 份分化衍生物样本,根据 chrY ratio 将样本分为野生型(chrY ratio>0.5)、完全 LOY(fLOY;chrY ratio<0.15)和部分 LOY(pLOY;0.15<R<0.5)。pLOY 和 fLOY 分别占所有 hESC 样本的 6.5% 和 5%,在不同研究和细胞系中均有发现。经验证,排除部分误标样本后,在常用的男性细胞系 WA01、HNES1 和 HUES8 中也检测到 LOY。进一步分析发现,LOY 样本中 Y 特异性基因均显著下调,在 fLOY 样本中甚至完全失去表达。
- LOY 样本的遗传和染色体完整性评估:检测 LOY 样本中 TP53 突变情况,发现 LOY 样本与 WT 样本的 TP53 突变率差异不显著,表明 LOY 不是由 TP53 突变导致的基因组不稳定的副产物。通过 eSNP-Karyotyping 分析发现,LOY 与非 LOY 样本在常染色体畸变积累上无显著差异,也未检测到与 LOY 相关的特定畸变。此外,LOY 与传代次数和生长培养基条件有关,样本在 30 代以后才出现 LOY,且在饲养层细胞上生长的样本中 LOY 高度富集。
- 分化细胞中 LOY 的鉴定:在所有三个胚层中均检测到 pLOY 和 fLOY,但在生殖细胞和滋养层分化样本中未观察到。这可能是因为 Y 染色体上的某些基因(或其在 chrX 上的对应基因)对生殖细胞分化和胎盘发育至关重要,缺乏 Y 染色体会干扰这些过程,但由于样本数量较少,该影响尚不显著。
- hESCs 中 LOY 的功能相关性:对 LOY 和 WT 样本进行差异表达分析,基因本体富集分析显示,LOY 样本中分化相关术语上调,细胞周期、凋亡、DNA 和染色体组织相关术语以及核糖体蛋白(RP)基因显著下调。LOY 细胞中关键多能性标记物 NANOG 和 POU5F1 等表达显著降低。同时,LOY 样本中 Y 连锁肿瘤抑制基因表达下调,其 X 连锁同源基因表达增加,这种下调可能使 LOY 细胞具有选择性优势。
- LOY 样本和特纳综合征细胞中 RP 基因的表达分析:核糖体由核糖体 RNA 和 80 种 RP 组成,参与细胞翻译过程。在 LOY 的未分化胚胎干细胞及其分化衍生物的三个胚层中,几乎所有 RP 编码基因均显著下调。特纳综合征(45,XO)样本同样存在 RP 基因表达下调的情况,且与 LOY 样本中 RP 基因的下调模式具有相关性。
- 常染色体核糖体病中 RP 基因的表达:研究发现,在钻石 - 黑范贫血(DBA)这种常染色体 RP 基因单倍体不足的核糖体病患者样本中,大多数 RP 基因转录显著下调,即使患者携带不同的突变,且不仅突变的 RP 基因转录下调,其他多数 RP 基因也受影响。
研究讨论
- LOY 的发生机制与影响:研究表明,LOY 在 hESCs 样本中较为常见,且并非由技术因素或样本误标导致。推测 LOY 可能起源于克隆事件,在培养过程中逐渐扩展,这一推测得到了 LOY 在后期传代样本和饲养层细胞培养样本中富集的支持。LOY 可能赋予细胞增殖优势,其机制可能与 Y 连锁肿瘤抑制基因的单倍体不足以及 X 连锁同源基因的补偿不足有关,但仍需进一步研究验证。
- LOY 对基因表达和细胞功能的影响:尽管 Y 染色体较小且广泛表达的基因较少,但其缺失对 hESCs 的基因表达模式影响显著,导致多能性标记物和主要多能性网络调节因子下调,同时大多数 RP 基因表达下调。这种 RP 基因转录下调现象在特纳综合征和 DBA 样本中也存在,提示可能存在一种新的机制,即一个 RP 基因拷贝的缺失会影响其他核糖体基因的转录,可能是 RP 单倍体不足的下游事件,也可能是细胞生长停滞导致翻译机制下调的结果。
- 研究的局限性与展望:本研究存在一定局限性,如仅通过 RNA-seq 样本判断 LOY,无法完全排除 chrY 表观遗传沉默而非丢失的可能性;未检测 RP 蛋白水平,也无法分析 rRNA 转录的变化。未来研究可针对这些方面展开,深入探讨 LOY 对细胞功能的影响,以及 RP 基因转录下调的具体机制。
- 研究的临床意义:LOY 样本中多能性基因标记物的减少和核糖体缺陷可能对使用 LOY 细胞进行疾病建模和细胞治疗产生重要影响。因此,在使用男性 hESCs 时,应考虑 Y 染色体的存在情况,以避免对研究和治疗结果产生干扰。