在男性的身体里,有一种奇妙又神秘的现象,那就是循环白细胞中 Y 染色体的镶嵌缺失(mLOY[1])。它指的是在一部分细胞中,Y 染色体 “消失不见” 了,而另一部分细胞还保留着正常的 Y 染色体。这可不是个小事情,它可是男性中最常被检测到的与年龄相关的染色体镶嵌事件呢!随着男性年龄的增长,还有吸烟这个 “坏家伙” 的影响,mLOY 出现的概率就会增加。而且,越来越多的证据表明,mLOY 和很多生物效应以及健康问题都有着千丝万缕的联系,比如和一些癌症风险、心血管疾病风险等都有关系。
那怎么才能发现 mLOY 呢?目前常用的方法是利用基因分型阵列(genotyping arrays)来检测。这里面有两个关键指标,一个是 B 等位基因频率(BAF[2]),它就像是个 “等位基因小天平”,通过比较一个变异位点上 A 等位基因和 B 等位基因的信号,看看它们是否平衡,要是平衡被打破,那就可能暗示有染色体的变化;另一个是 Log<sub>2</sub>R 比率(LRR[2]),它能衡量探针信号强度,信号比正常高,可能意味着染色体有增加,信号比正常低,就可能是染色体有缺失。
大多数研究检测 mLOY 时,会采用一种基于相位的检测方法,主要盯着假常染色体区域(PAR[2])的 BAF 信号,特别是 PAR1 区域(chrX:10,001 - 2,781,479, GRCh38)。这个方法有个前提假设,就是 PAR1 区域的 BAF 偏差主要是因为 Y 染色体的缺失,毕竟在男性白细胞里很少看到 X 染色体缺失。靠着这个方法,就算只有不到 1% 的细胞发生 Y 染色体缺失,也能被检测出来,所以当基因分型阵列在 PAR1 区域有足够的探针时,它就是检测 mLOY 的 “得力助手”,还能通过 PAR1 区域的 BAF 偏差来估算 Y 染色体缺失细胞的比例(CF[2])。
但是,问题来了!一些常用的商业基因分型阵列,特别是像 Illumina Hap610、Hap660 和 OncoArray 这些 “老型号”,在 PAR1 区域的探针覆盖不够。就拿 OncoArray 来说,它在 PAR1 区域的 SNP 标记(非 CNV 探针)还不到 33 个,其中只有少数几个能被当作杂合位点用于基于相位的 BAF 方法。用 PLCO OncoArray 的数据来看,4981 名男性受试者中,杂合探针的数量少得可怜,最少是 0 个,中位数才 5 个,最多也就 13 个,这么少的数量根本没办法可靠地检测 mLOY。所以,就急需一种新方法,这时候,利用 Y 染色体男性特异性区域(MSY[2])的 LRR 数据来检测 mLOY 的想法就诞生啦!
为了解决这些问题,来自美国国家癌症研究所癌症流行病学和遗传学部门以及弗雷德里克国家癌症研究实验室癌症基因组学研究实验室的 Weiyin Zhou 等人,在《BMC Bioinformatics》期刊上发表了一篇名为 “Estimation of mosaic loss of Y chromosome cell fraction with genotyping arrays lacking coverage in the pseudoautosomal region” 的论文。他们通过研究发现,虽然相对于 BAF,mLRR_Y(Y 染色体男性特异性区域的中位 Log<sub>2</sub>R 比率[2] )检测染色体镶嵌改变时信号更 “嘈杂”,但利用非 PAR 区域变异的 mLRR_Y 能够准确估算 mLOY 的 CF,尤其是对于高 CF 的 mLOY 情况。这一发现可太重要啦,为那些 PAR1 区域覆盖不足的基因分型阵列提供了新的检测 mLOY 的方法。
在这项研究中,研究人员主要用了以下关键技术方法:首先,他们利用已有的前列腺、肺癌、结直肠癌和卵巢癌(PLCO[2] )筛查试验的基因分型阵列数据来研究 mLOY 的检测和 CF 估算。然后,从 mLRR_Y 推导出一个公式来估算 mLOY 细胞的比例,公式为 CF = 1 - 2(mLRR_Y/0.45)。最后,运用基于相位的 BAF 方法检测 mLOY,使用 Mosaic Chromosomal Alterations(MoChA[2] )WDL 管道,以特定的强度数据文件为输入,参考 GRCh38 基因组构建,并利用 SHAPEIT4 进行基因分型。
下面咱们来看看具体的研究结果:
- 与女性样本数据比较 mLOY 的 CF:男性细胞中 Y 染色体少了一条,就相当于 Y 染色体数量为零,这和女性细胞天然没有 Y 染色体的情况类似。研究人员对比了两组来自 PLCO 研究的男性和女性样本的中位 mLRR_Y 数据。用 Illumina Infinium OncoArray 芯片检测时,4981 名男性的中位 mLRR_Y 是 - 0.007,而 8381 名女性是 - 3.3。按照研究人员推导的公式,mLRR_Y 为 - 3.3 时,对应的 Y 染色体拷贝数是 0.06,也就意味着 Y 细胞缺失了 99.4%,这和女性没有 Y 染色体的预期情况很接近。再看用 Illumina Infinium OmniExpress 芯片的数据,874 名男性的中位 mLRR_Y 是 0.06,1113 名女性是 - 4.11, - 4.11 对应的 Y 染色体拷贝数是 0.002,Y 细胞缺失了 99.8%。这说明正常男性的观测值接近有 1 条 Y 染色体(0% Y 缺失),女性的观测值接近没有 Y 染色体(100% Y 缺失)。而且,即使 OncoArray 芯片在 PAR1 区域没有足够的探针,用 mLRR_Y 方法也能检测 mLOY 并估算 CF。
- 与 qPCR 数据比较 mLOY 的 CF:研究团队之前的研究用 LRR 阈值 - 0.15 来判断 mLOY 是否存在。这次,他们建立了一个模型,用二次回归模型拟合平均 qPCR 比率和平均 LRR 数据对,以平均 LRR 为预测变量,平均 qPCR 比率为响应变量。比如,平均 LRR 为 - 0.15 时,之前 qPCR 模型得出 Y 染色体缺失频率是 22.7%,用现在的公式计算,mLOY 的 CF 是 0.204,和 qPCR 模型得出的结果很相似。对于之前研究中 mLOY 的数据集,两种方法得出的 CF 线性相关性很高,R2达到 0.98。
- 基于相位的 BAF 和 mLRR_Y 方法估算 mLOY 的 CF 的相关性:研究人员检测了利用 PAR1 变异的基于相位的 BAF 方法估算的 CF(CF<sub>BAF</sub>[2] )和 mLRR_Y 方法估算的 CF(CF<sub>mLRR_Y</sub>[2] )之间的相关性。用 Illumina Global Screening Array(GSA[2] )芯片对 18756 名男性样本检测时,发现 1670 名 mLOY 男性,两种方法估算的 CF 的 R2达到 0.81 ,相关性很高。把这些男性的 mLRR_Y 值分成 100 个区间后,区间内中位 CF<sub>BAF</sub>和中位 CF<sub>mLRR_Y</sub>的 R2更是高达 0.96。用 Illumina OmniExpress 芯片对 874 名男性样本检测时,也得到了类似的高相关性结果。
- mLRR_Y 检测 mLOY 优于基于相位的 BAF 方法的情况:对于高 CF 的 mLOY 男性,基于相位的 BAF 检测方法存在灵敏度降低和低估异常细胞比例的问题。因为可用的杂合位点检测数量有限,有些高 CF 的 mLOY 男性就可能检测不出来。而且,由于只有一小部分真正的杂合位点被正确检测为 AB 基因型,这也会导致异常细胞比例被低估。相比之下,mLRR_Y 方法在这些情况下表现更好,能更准确地估算 CF。
在讨论部分,研究人员表示,mLRR_Y 方法利用 Y 染色体男性特异性非 PAR 区域的基因分型探针强度来识别 mLOY 并估算异常细胞比例,不需要依赖 PAR1 区域杂合探针的 BAF 偏差,为 PAR1 区域覆盖不足的基因分型阵列提供了新的选择。虽然两种检测方法存在差异,基于相位的 BAF 方法对低细胞比例的 mLOY 检测更灵敏,而 mLRR_Y 方法在检测高细胞比例的 mLOY 时更有优势,并且能提供更准确的 CF 估算。当 PAR1 和 Y 染色体男性特异性区域都有足够的杂合变异时,两种方法一起使用能更全面、准确地检测 mLOY。
总的来说,这项研究意义重大。它为在 PAR1 区域缺乏足够变异的基因分型阵列提供了一种从 mLRR_Y 估算 Y 染色体缺失细胞比例的有效方法,并且验证了这个公式的准确性。这不仅加深了我们对 mLOY 检测的理解,还为后续研究 mLOY 与各种疾病的关系提供了更可靠的技术支持,有助于我们更好地了解男性健康相关的染色体变化机制,说不定未来还能为相关疾病的预防和治疗带来新的思路呢!