完整测序猿类基因组:解锁人类演化谜题的关键钥匙

时间:2025年4月10日
来源:Nature

编辑推荐:

在人类遗传学和基因组学领域,由于猿类基因组的重复性,以往研究难以对其进行全面分析。研究人员对六种猿类进行了单倍型解析的参考基因组测序及比较分析。他们成功组装出高质量基因组,这为后续的进化研究提供了重要基础。

广告
   X   

在生命科学的长河中,对人类演化历程的探索始终是一个引人入胜的话题。自 2001 年人类基因组首次测序以来,科学界便致力于通过对猿类基因组的研究,揭开人类进化的神秘面纱。然而,猿类基因组中那些高度重复和动态变化的区域,就像一道道难以跨越的屏障,阻碍着研究的深入进行。以往的研究因这些区域的存在,对猿类基因组的理解存在诸多缺失,我们对自身物种进化的认知也因此变得不完整。

为了填补这些知识空白,来自世界各地多个研究机构的科研人员携手合作,开展了一项具有重大意义的研究 —— 对六种猿类(黑猩猩、倭黑猩猩、大猩猩、婆罗洲猩猩、苏门答腊猩猩和合趾猿)进行基因组的完整测序和深入分析。这一研究成果发表在《Nature》杂志上,为我们理解人类和猿类的进化关系提供了全新的视角和丰富的信息。

在这项研究中,研究人员运用了多种先进的关键技术方法。首先,在基因组测序方面,他们采用了长读长测序技术,包括 PacBio 高保真(HiFi)测序(平均 90 倍序列覆盖度)和牛津纳米孔技术(ONT)测序(平均 136.4 倍序列覆盖度),并且特别注重产生至少 30 倍的超长(UL > 100 kb)ONT 序列数据,以此跨越较大的重复区域进行组装 。其次,在基因组组装时,使用 Verkko12(v1.4.1)这一混合组装器,结合 HiFi 数据的准确性和 UL - ONT 测序数据进行重复序列解析、局部定相和支架构建 。此外,还利用了 Hi - C 数据或亲子 trio 数据实现染色体规模的单倍型定相,将其转化为完全二倍体组装。研究样本主要来自不同猿类的雄性个体,部分样本来源于亲子 trio,这为研究提供了丰富的遗传信息。下面我们来详细了解一下这项研究的主要结果:

  • 猿类基因组组装:研究人员突破重重困难,成功实现了染色体水平的连续性和高准确性的基因组组装,序列准确性高达每 270 万个碱基对中误差小于 1 个 。在总共 290 条染色体中,74%(215 条)实现了端粒到端粒(T2T)的无间隙组装,且至少 80.8% 的染色体在至少一个单倍型中是 T2T 组装 。这些基因组的质量相较于以往的猿类参考基因组有了显著提升,与 T2T - CHM13 人类参考基因组相当。同时,每个基因组都经过美国国家生物技术信息中心(NCBI)的注释,并成为 RefSeq 中的主要参考。

  • 资源改进亮点

    • 猿类泛基因组:为了减少人类参考基因组带来的偏差,研究人员构建了猿类泛基因组。通过不同方法构建的泛基因组,不仅能够更准确地注释基因和重复序列,还能确定更多人类 GRCh38 参考基因组中碱基对的祖先状态 。

    • 分歧和选择:对完整猿类基因组的序列比较发现,其分歧程度比之前估计的更大 。研究人员对物种形成时间、不完全谱系分选(ILS)进行了估计,并确定了许多候选的选择扫荡区域,其中不少是之前未知的,这为研究猿类的适应性进化提供了重要线索 。

    • 基因注释:运用两种基因注释管道(比较注释工具包(CAT)和 NCBI),结合 PacBio Iso - Seq 转录组长读数据,研究人员对猿类基因组中的蛋白质编码基因和非编码 RNA(ncRNA)基因进行了全面注释 。发现不同猿类的蛋白质编码基因数量相近,但与人类相比,存在一些基因的获得、复制或丢失,还鉴定出了许多新的转录本模型 。

    • 重复注释:研究人员对猿类基因组中的高拷贝重复序列进行了近乎完整的统计。发现猿类常染色体中可检测到的重复序列占比为 53.2 - 58.0%,性染色体中的占比更高 。不同猿类的卫星 DNA、转座子等重复序列存在显著差异,如猩猩的 LINE - 1(L1)转座子活性较高,而非洲猿类的 Alu 插入积累较多 。

    • 免疫球蛋白和 T 细胞受体基因座:借助完整的猿类基因组,研究人员对与免疫反应相关的九个区域进行了详细分析 。发现猿类免疫球蛋白和 T 细胞受体(TCR)基因座在物种内和物种间存在较大的结构差异,免疫球蛋白基因座的进化速度似乎比 TCR 基因座更快 。

    • MHC 基因座:研究人员完整组装并注释了 12 个猿类单倍型的主要组织相容性复合体(MHC)区域(4 - 5 Mb) 。MHC 基因座在不同猿类中存在显著的序列分歧和结构变异,这与长期的平衡选择有关 。通过系统发育分析,进一步揭示了该区域在猿类进化中的复杂性 。

    • 结构变异和染色体重排:研究人员在序列水平上识别出了所有 26 种区分人类和其他类人猿的大规模染色体重排 。发现一些已知的倒位事件更为复杂,还鉴定出了数百个以前未描述的倒位 。这些倒位与基因注释、物种进化等密切相关 。

    • 快速分歧区域:通过突变计数方法,研究人员识别出了 13,128 个在猿类进化过程中快速分歧的区域(AQERs),其中人类分支上有 3,268 个(HAQERs) 。这些区域在重复 DNA 和二价染色质状态中高度富集,与基因表达调控和人类进化相关 。

    • 基因组浏览器和其他注释特征:为了便于下游分析,研究人员开发了 UCSC 浏览器中心,整合了多种注释数据 。包括复制时间数据、线粒体 DNA 起源的核序列(NUMTs)、非规范 DNA 序列基序等,这些注释有助于理解基因组进化和基因表达变化相关的表观遗传变化 。

  • 新表征区域

    • 近端着丝粒染色体和核仁组织区:研究发现猿类的核仁组织区(NORs)在不同物种的染色体上分布不同,rDNA 拷贝数和 NOR 结构在不同物种、染色体和单倍型之间存在差异 。尽管 NOR + 染色体短臂结构变化大,但它们共享一些共同特征,如高度保守的 rRNA 基因 。

    • 着丝粒卫星进化:对五个非人类灵长类动物(NHP)基因组的分析,使研究人员能够在碱基对分辨率上评估着丝粒区域的序列、结构和进化 。不同猿类的着丝粒 α - 卫星高阶重复(HOR)阵列在长度、结构和组成上存在差异,且与功能相关 。

    • 亚端粒异染色质:研究人员完整测序和组装了合趾猿、黑猩猩、倭黑猩猩和大猩猩的亚端粒异染色质帽 。这些区域由串联重复 DNA 组成,在不同物种中的长度、分布和结构存在差异,且与复制时间和表观遗传特征相关 。

    • 谱系特异性 SDs 和基因家族:与以往方法相比,T2T 基因组增加了对节段性重复(SDs)的解析能力 。研究发现不同猿类的 SDs 含量和结构存在差异,且与染色体进化重排相关 。在大猩猩和猩猩中发现了新的基因家族扩张和潜在的新基因 。在讨论部分,研究人员指出,这项研究对猿类基因组的完整测序显著改进了以往的分析,为未来的进化比较提供了宝贵资源 。研究揭示了许多新的候选基因和区域,有助于解释猿类之间的表型差异 。例如,在人类中发现的 HAQERs 与二价启动子相关,可能在复杂性状中发挥重要作用 。此外,研究还强调了一些值得关注的发现 。比如,猩猩的 SDs 扩张明显,这对理解亚洲和非洲猿类的进化差异具有重要意义;猿类近端着丝粒染色体的差异可能与物种形成过程中的生殖隔离有关;谱系特异性基因家族的扩张和重排挑战了传统观点,表明其在物种分化中起到了重要作用;倭黑猩猩的小型着丝粒为人工染色体的设计提供了新思路;亚端粒异染色质的表观遗传特征暗示了其潜在的功能 。尽管这项研究取得了重大突破,但仍存在一些局限性 。部分区域如近端着丝粒染色体的着丝粒和一些复杂的串联重复区域,仍存在序列间隙 。样本仅涵盖了 6 个物种的两个单倍型,无法完全代表所有猿类的遗传多样性 。此外,注释过程中可能仍存在对人类的偏向性 。不过,这些局限性并不影响该研究的重要价值,它为后续的研究指明了方向,激励着科学家们进一步深入探索猿类基因组的奥秘,为理解人类和猿类的进化关系、生物多样性以及相关疾病的发生机制提供了坚实的基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有