编辑推荐:
西湖大学生命科学学院杨剑教授领导的研究团队近日通过结合长读长和短读长序列的低成本混合测序策略,成功构建了超过1,000名个体的泛基因组。
自人类基因组计划完成以来,单一的线性参考基因组(如GRCh38)一直是生物医学研究的基础。然而,人类个体的遗传背景差异显著,单一参考基因组无法全面反映不同人群的遗传多样性。这导致传统分析忽略了结构变异和串联重复序列等复杂的遗传变异形式。
为了应对这一挑战, 研究人员提出了泛基因组的概念。泛基因组(pangenome)是指多个基因组序列的集合,代表了群体的遗传多样性。
尽管长读长测序技术的进步使得人们能够组装高质量的二倍体基因组,但高昂的测序成本限制了以往分析的样本量,通常仅包含几十名个体。如此小的样本量不足以准确估计群体中遗传变异的频率,也无法解析低频变异和高复杂度区域。
西湖大学生命科学学院杨剑教授领导的研究团队近日通过结合长读长和短读长序列的低成本混合测序策略,成功构建了超过1,000名个体的泛基因组。
这项研究成果于4月1日发表在《Nature》杂志上,突破了以往小样本量的局限,为医学和群体遗传学研究奠定了重要的基础。
杨剑教授的团队长期致力于统计遗传学、基因组学及人类复杂性状大数据分析的方法开发。通过开发高效的计算方法,团队不断攻克大规模基因组数据处理的挑战。他们开发的分析工具,如GCTA-GREML、SMR和gsMap,已在全球范围内得到广泛采用。
研究团队此次开发出基于泛基因组的基因组组装(PIGA)流程。与从头组装方法不同,PIGA采用泛基因组引导的框架,整合整个队列的序列信息。
它采用一种经济高效的混合测序策略,基于Illumina短读长和PacBio长读长WGS数据。这种方法大大降低了测序成本,同时能够根据中等覆盖度的数据组装基因组,为未来的群体规模测序研究提供了一条切实可行的技术途径。
运用此方法,研究人员构建了迄今为止世界上最大的人类泛基因组,包含1,116个二倍体基因组,平均质量值(QV)为46。分析鉴定出405.3 Mb的非参考序列,这些序列在现有的参考基因组(GRCh38和CHM13)中不存在。
值得注意的是,他们将其中26.2 Mb的序列注释为功能基因和预测调控元件,极大地扩展了我们对人类基因组中非参考序列的理解。
利用大规模组装数据集,研究人员还整理了一份全面的遗传变异目录。除了小的变异,这份目录还涵盖了各种复杂的变异,包括11万个结构变异、48万个串联重复序列以及86万个嵌套在非参考序列中的变异。
利用这份目录,研究团队在多个尺度上表征了医学相关的遗传变异,包括改变基因的结构变异、致病性的串联重复序列扩增、基因簇变异和HLA基因单倍型。
通过整合基因表达数据,他们还进行了泛变异表达数量性状位点(eQTL)定位。他们鉴定出3,256个涉及复杂变异的eQTL,阐明了这些不同变异类型的调控复杂性。
这项研究显著增进了我们对复杂遗传变异及其功能意义的理解,为人类健康研究和其他物种的泛基因组研究建立了新的范式。
生物通 版权所有