Nature里程碑:迄今为止最完整的人类基因组概述!

时间:2025年7月25日
来源:AAAS

编辑推荐:

一个国际研究团队显著扩展了已知人类遗传变异的目录。由此产生的数据集在《自然》杂志上连续发表的两篇论文中分享,构成了迄今为止最完整的人类基因组概述。在测试中,新的参考数据集将可疑突变列表从数万个缩减到仅几百个,从而加快了罕见遗传综合征和其他类型疾病(如癌症)的诊断速度。这两篇论文提供了一个路线图,使组装完整的人类泛基因组变得更加切实可行,而非仅仅停留在理想阶段。

广告
   X   

研究人员显著扩展了已知的人类遗传变异目录。由此产生的数据集在《自然》杂志上连续发表的两篇论文中分享,构成了迄今为止最完整的人类基因组概述。

第一篇论文由欧洲分子生物学实验室(EMBL)、杜塞尔多夫海因里希海涅大学(HHU) 和巴塞罗那基因组调控中心(CRG) 联合领导,分析了来自五大洲 26 个人群的 1,019 人的基因组。

研究人员专门研究了人类基因组中的结构变异。这些变异指的是被删除、复制、插入、倒置或改组的大片段DNA。个体间结构变异的差异可能意味着数千个DNA碱基同时发生变化,这通常会导致基因敲除,并引发许多罕见疾病和癌症。

研究团队在1019名个体中发现并分类了超过16.7万个结构变异,使人类泛基因组(pangenome)中已知的结构变异数量翻了一番。泛基因组是将许多人的DNA拼接在一起,而不是依赖于单个基因组的参考序列。每个人携带的结构变化中位数为750万个字母,这凸显了自然界自身对基因组编辑的强大影响力。

“我们在这些人群中发现了隐藏的遗传变异宝库,其中许多在早期的参考集中未被充分提及。例如,我们发现的50.9%的插入和14.5%的缺失在之前的变异目录中均未曾报道过。这是绘制人类基因组盲点图谱的重要一步,有助于减少长期以来偏向欧洲血统基因组的偏见,并为开发适用于所有人群的疗法和检测铺平道路。”该研究的共同通讯作者Bernardo Rodríguez-Martín博士说道。

在已发现的变异中,约有五分之三(59%)发生在不到1%的个体中。这种罕见程度对于诊断遗传病至关重要,因为它可以帮助更有效地筛选出无害的变异。在测试中,新的参考集将可疑突变列表从数万个减少到仅几百个,从而加快了罕见遗传综合征和其他类型疾病(如癌症)的诊断速度。

Bernardo Rodríguez-Martín最初在欧洲分子生物学实验室(EMBL)Jan Korbel的实验室从事这个项目,后来加入CRG组建自己的团队并完成了这个项目。他开发了SVAN软件,可以对所有DNA变化进行分类,例如“额外复制的片段”或“删除的块”,帮助团队筛选基因数据,从而识别新的模式。

SVAN 揭示,人类基因组中超过一半的新绘制的多样性图谱位于高度重复的 DNA 片段中,这些片段曾被视为垃圾或难以研究。“重复元素代表着一个丰富的、此前被忽视的遗传多样性宝库。它们是人类多样性、疾病和进化的关键人物,” CRG 博士生、第一项研究的合著者Emiliano Sotelo-Fonseca说道。

这些重复的DNA片段包括移动元件,也称为“跳跃基因”,因为它们能够在基因组中自我复制和粘贴。研究人员发现,在人类基因组中数千个移动元件中,大多数生殖细胞突变源于几十个高活性元件的活性。

例如,研究人员发现,一个特别活跃的 LINE-1 基因会劫持一个强大的调控开关,从而产生比平时多得多的自身拷贝,将额外的遗传物质分散到许多人的 DNA 中。研究人员在另一类名为 SVA 的跳跃基因中也发现了类似的现象。

Rodríguez-Martín 博士说:“我们的工作表明,移动元素如何通过劫持我们的基因组调控按钮来增强其活性,这是一种未被充分重视的策略,可能有助于驱动癌症等疾病,值得进一步研究。”

第二篇论文由欧洲分子生物学实验室 (EMBL) 和杜塞尔多夫海因里希海涅大学 (HHU) 联合领导,使用了仅 65 人的较小样本集,但结合了几种强大的测序方法,以前所未有的细节拼凑出人类基因组。

该方法帮助研究人员解码了最难读取的片段,包括着丝粒。这些个体的每条染色体几乎完整、无间隙地组装在一起,帮助研究人员检测出第一篇论文和其他研究遗漏的区域内的大型遗传变异。

研究结果表明,将第一篇论文中的方法(对许多基因组进行中等深度测序)与第二篇论文中的方法(对少量基因组进行高精度测序)结合起来,是绘制完整、全面的人类遗传多样性图谱的最快途径。

“一项研究使用的测序能力较低,但样本量更大。另一项研究使用的样本量较小,但每个样本的测序能力更高。这导致了互补的结论,”海德堡欧洲分子生物学实验室(EMBL)组长兼临时负责人、两项研究的共同资深作者Jan Korbel博士说道。

两篇论文都对千人基因组计划(1000 Genomes project)中的个体进行了重新测序。千人基因组计划是一项具有里程碑意义的计划,于2015年绘制了全球遗传多样性图谱。该计划依赖于“短读”测序技术,该技术一次只能读取非常小的DNA片段。这些片段太短,无法揭示缺失或复制的大片段DNA、方向相反的长片段DNA,以及在许多地方看起来几乎相同的重复片段。

新研究取得的进展得益于“长读”测序,这是一项新技术,可以一次读取数千到数万个 DNA 字母,帮助研究人员发现以前的方法无法检测到的大量隐藏变异。

这两篇论文也为构建人类泛基因组参考文献取得了重要进展。过去二十年来,科学家们一直使用一个人的DNA序列作为人类基因组的“标准”。泛基因组更适合个性化医疗,能够反映全球多样性。

通过开发创新算法,可以对 1,019 个不同基因组进行广度分析,对 65 个超完整基因组进行深度分析,研究人员提供了一个路线图,使组装真正的人类泛基因组变得更加实用而不是理想化,特别是在长读测序成本下降的情况下。

“通过这些研究,我们创建了一个全面且具有医学相关性的资源,现在世界各地的研究人员都可以利用它更好地了解人类基因组变异的起源,并了解其如何受到众多不同因素的影响,”杜塞尔多夫海因里希·海涅大学教授、两项研究的共同资深作者Tobias Marschall表示。“这是合作研究开辟基因组科学新视野的一个很好的例子,也是朝着更完整的人类泛基因组迈出的一步。”


生物通微信公众号
微信
新浪微博


生物通 版权所有