全基因组测序助力发现罕见非编码变异与循环蛋白水平的关联
在生命科学的神秘世界里,遗传信息就像一本隐藏着无数秘密的宝典,其中非编码区域的遗传变异更是充满了未知。长久以来,我们虽然知道罕见的非编码遗传变异可能在人类健康和疾病中扮演着重要角色,但由于缺乏大规模人群的全基因组测序数据,以及难以对非编码变异进行功能分类,它们对常见表型的具体贡献一直蒙着一层厚厚的面纱。
想象一下,人体就像一个精密的机器,循环蛋白是其中不可或缺的 “小零件”,它们的水平变化可能影响着整个身体的正常运转。而罕见的非编码遗传变异,或许就是那些悄悄改变 “小零件” 的神秘力量。为了揭开这层面纱,英国埃克塞特大学(University of Exeter)的研究人员 Gareth Hawkes、Kartik Chundru 等人挺身而出,开启了一场探索之旅。
研究人员利用英国生物银行(UKB)中约 50,000 名参与者的全基因组测序(WGS)数据,这些数据包含了 11 亿个变异和 1.23 亿个基于非编码聚合的测试,以及 2,907 种循环蛋白水平信息。他们就像侦探一样,对这些海量的数据进行深入分析,试图找出罕见非编码遗传变异与循环蛋白水平之间的联系。
研究人员主要运用了全基因组测序技术和关联分析方法。全基因组测序能够提供全面的遗传信息,让研究人员看到整个基因组的全貌,包括编码区和非编码区。而关联分析则帮助他们确定遗传变异与循环蛋白水平之间是否存在关联。此外,研究使用的样本队列来自英国生物银行,这为研究提供了丰富且具有代表性的数据资源。
研究结果令人眼前一亮。首先,在寻找蛋白质定量性状位点(pQTLs)的过程中,研究人员共确定了 13,457 个候选 pQTLs。但他们发现,超过一半的独立 pQTLs 可能是覆盖假象。经过仔细排查,那些具有大量独立 pQTLs 的蛋白质,其相关基因区域的测序覆盖度往往较低,并且这些低覆盖区域富含先前报道的存在问题的基因组区域。于是,研究人员对数据进行了严格筛选,最终保留了 1,026 种蛋白质用于进一步分析。
在筛选后的数据分析中,研究人员发现了 1,651 个高质量的罕见 pQTLs,涉及 599 种蛋白质。其中,大多数编码 pQTLs 会降低循环同源蛋白水平,而在非编码 pQTLs 方面,研究人员有了新的发现。他们识别出 604 个与 369 种蛋白质相关的独立罕见非编码单变异 - 蛋白质关联。这些非编码 pQTLs 在 5'-UTR 区域显著富集,并且与编码 pQTLs 相比,它们对循环蛋白水平的影响更加均衡,既有增加蛋白水平的,也有降低蛋白水平的。
通过聚合测试,研究人员又有了新的收获。他们确定了 357 个与循环蛋白水平相关的条件独立罕见变异非编码区域。这些区域中,超过 90% 的信号在不限制变异为高度保守或受约束的情况下就能被检测到。而且,大多数非编码聚合信号仅通过单变异分析是无法发现的,这充分显示了聚合测试的强大之处。
研究人员还发现,罕见非编码 pQTLs 存在组织特异性富集现象。在分泌或信号蛋白相关的调控区域,以及血液和肝脏细胞的相关调控区域中,罕见非编码 pQTLs 的关联更为显著。这表明,这些罕见非编码变异对蛋白质水平的影响可能与组织特异性密切相关。
这项研究意义非凡。它首次大规模地利用全基因组测序数据,系统地分析了罕见非编码遗传变异与循环蛋白水平之间的关系。研究结果不仅为我们深入理解基因调控机制提供了新的视角,也为后续研究罕见非编码遗传变异在复杂疾病中的作用奠定了基础。例如,在未来的疾病研究中,可以进一步探究这些罕见非编码变异是否与某些疾病的发生、发展相关,从而为疾病的诊断和治疗提供新的靶点和思路。同时,研究也提醒其他科研人员,在使用大规模测序数据时,要充分考虑数据的质量和覆盖度问题,避免得出错误的结论。相信随着研究的不断深入,这些罕见非编码遗传变异的秘密将被一一揭开,为人类健康事业带来新的突破。