改善短读取测序基因组参照偏倚 Giraffe泛基因组映射工具提高结构变异识别

时间:2021年12月23日
来源:GEN

编辑推荐:

短读测序经济实惠,但必须将1-2百个碱基对长度的测序结果通过计算映射到基因组参照上以确定源位置和身份。对于人这样具遗传多样性的基因组,这个参照如果使用单一线性参考序列,在解释遗传变异时会产生偏差。科学家们开发新的算法工具“Giraffe”可以快速、准确地将个体的短测序读数映射到代表数千个人类基因组的泛基因组参照。

广告
   X   

Giraffe”是加州大学圣克鲁兹分校的科学家开发的一种新的基因组绘图算法,基因组学研究所可以高效地将单个测序读取(reads)映射到包含数千个人类基因组的泛基因组参照,其速度堪比当前将测序数据映射到单个基因组参照的标准方法。

普遍流行且经济实惠的短读长DNA测序在个体测序中获得的基因组序列片段,必须被映射到参考基因组序列中,以确定其染色体位置,并识别出其中与基因组参照的差异——这些差异可能影响健康。完全依赖单一线性参考序列来鉴别具有遗传多样性的人类亚群体中的遗传变异,这不可避免地引入了偏倚——对不同于基因组参照的序列就有可能出现不正确地映射。

虽然人类基因组序列在所有人类中几乎99%是相同的,但代码的单个字母有零星的差异(单核苷酸变异,SNV);短片段的添加(插入)或遗漏(删除)——都被统称为“indel”;以及更大、更复杂的结构变化,包括序列重排。在人类个体基因组中约0.001%的这些不同类型的变化,不仅解释了我们独特的外观,而且可能意味着健康和疾病之间的差异。

Giraffe是一种泛基因组短读序列映射工具,它可以通过序列图有效地将测序数据映射到单倍型集合,这是一种消除偏倚和更好地分析基因组的实用解决方案。一个单一的基因组参照代表选择一种遗传变异版本,而无法体现出其他版本。Giraffe应用更广泛的具有代表性的泛基因组参照,可以使基因组学更具包容性。利用数学图形表示不同序列之间的关系,可以将不同的基因组组合成具有代表性的泛基因组参照。论文发表在12月16日发表在《Science》杂志上(“泛基因组学可以对5202个不同基因组中的已知结构变异进行基因分型”),作者评估了Giraffe的效率,并表明它可以对遗传变异进行更全面的表征,这正是在生物医学研究和精准临床实践中越来越需要的。

Benedict Paten博士是加州大学圣塔克鲁兹分校的生物分子工程学副教授,基因组学研究所副主任,也是论文的作者。“我们一直在朝着这个方向努力很多年了,现在是我们第一次做出了切实可行的、比单一基因组参照更快更好的成果。这对生物医学的未来非常重要——基因组学对每个人都是平等的,所以我们需要能考虑到人类人口多样性的、无偏倚的工具。”

利用单一基因组参照很难找到结构变异,而结构变异在某些疾病中发挥着重要作用。普通人拥有数百万个snv和indel,以及数万个较大的结构变异,但结构变异对基因组的影响比snv和indel加起来还要大。Paten说:“基因组学的主力一直是snv和短indes,因为结构变异被隐藏在视野之外。”“泛基因组学让结构变异变得可见,所以我们可以像研究snv和短indel一样研究它们。有很多结构变异,它们可以产生很大的影响,所以这对疾病的遗传研究的未来至关重要。”

在这项新研究中,研究人员使用公开的基因组数据构建了两张人类基因组参考图,以评估新工具Giraffe。Jouni Sirén博士是基因组研究所的研究科学家,也是该研究的共同第一作者,他开创了Giraffe的许多关键算法创新。评估表明,Giraffe能够准确地将新的序列数据映射到内嵌了数千个基因组的泛基因组参照上,与现有工具映射到单个基因组参照一样快,同时减少了映射偏差。

“这种分析方法不仅更好,而且与目前使用线性基因组参照的方法一样快,”基因组研究所的博士后研究员、论文的共同第一作者Jean Monlong博士说。

研究人员使用Giraffe绘制了来自5202人的不同群体的序列解读图,并确定了16.7万最近发现的结构变异的基因型。他们估计了这些结构变异的不同版本在整个人类种群和亚种群中的频率。作者指出,某些变异的频率在不同亚群之间有很大差异,如果只分析一个祖先的个体,可能会被误解。

 

从基于长读长和大规模测序研究得到的变异检出被用来构建泛基因组参考图(顶部)。Giraffe(和其他的映射工具)将读数映射到图表或线性参照,并对映射的准确性、等位基因覆盖平衡和速度进行评估(中)。然后,映射读取应用于分析变异检出,并评估变异检出的准确性(底部)。结构变异检出与表达数据一起进行分析,以确定eQTL和人口频率评估。[来源:Sirén等人,Science 2021]

研究人员发现,谷歌健康公司的深度学习变异调用程序(DeepVariant)可以使用Giraffe对泛基因组的比对,比使用对单个基因组参照的比对更准确地识别snv和indel。

Monlong说:“最近通过长读长测序发现了很多结构变异。”“有了泛基因组,我们可以在短读测序的大型数据集中寻找这些结构变异。这很令人兴奋,因为这将使我们能够在许多人身上研究这些新的结构变异,并就它们的功能影响、与疾病的关联或在进化中的作用提出问题。”

目前,Paten与加州大学圣克鲁斯基因组研究所的其他人一起,在美国国家人类基因组研究所的资助下,致力于全面的人类泛体基因组参照研究。研究人员希望明年将这一资源提供给科学界。

生物通微信公众号
微信
新浪微博


生物通 版权所有