Nature子刊:人类基因图谱偏向于欧洲血统

时间:2025年12月9日
来源:AAAS

编辑推荐:

巴塞罗那超级计算中心和巴塞罗那科学技术研究所的科学家在非洲、亚洲和美洲人群中发现了数千个遗漏的转录本,其中可能包括人们尚未发现的全新基因的产物。

广告
   X   

一项新研究显示,人类基因图谱存在重大盲点,因为这些图谱主要是基于欧洲血统人群的DNA序列构建而成。

巴塞罗那超级计算中心和巴塞罗那科学技术研究所的科学家在非洲、亚洲和美洲人群中发现了数千个遗漏的转录本,其中可能包括人们尚未发现的全新基因的产物。这项研究成果于12月3日发表在《Nature Communications》杂志上。

研究结果表明,某些疾病在特定人群中发病率更高的部分原因在于,他们的基因可能通过剪接等过程产生不同的转录本以及不同的蛋白质。这些分子变化在目前的基因图谱中几乎无法观察到,导致一些对疾病风险至关重要的信息被掩盖。

共同第一作者、巴塞罗那超级计算中心的Pau Clavell-Revelles表示:“科学家们每天都在使用基因图谱,但我们却忽略了世界上很大一部分人口。这项研究首次揭示了我们究竟遗漏了多少信息。”

2001年发表的人类基因组草图是一项里程碑式的科学成就,但仍存在局限性。仅凭序列本身无法揭示基因的位置、数量,也无法解释单个基因如何通过剪接产生多个版本的蛋白质。

为了解决这个问题,科学家们构建了基因注释图谱。这些图谱是详细的目录,展示了每个人类基因的位置以及它们产生的所有RNA转录本。这些信息可帮助人们了解哪些区域会导致疾病,以及个体之间的遗传差异有哪些影响。

人类基因组参考序列及其衍生的大量基因注释主要来源于欧洲血统的个体。因此,非洲、亚洲、大洋洲和美洲人群特有的生物学特征从未在基因图谱中得到完整呈现。

长读长测序揭示隐藏的生物学特征

为此,研究团队采用长读长测序技术分析了43名个体的血细胞,他们来自8个群体,包括约鲁巴人(尼日利亚)、卢希亚人(肯尼亚)、姆布提人(刚果)、汉族人、印度泰卢固人、秘鲁人和德系犹太人等。这些群体也参与了“千人基因组计划”。

研究人员发现,41,000个潜在转录本未收录在官方的GENCODE基因图谱中。在来自蛋白编码基因的转录本中,他们预计41%可编码现有蛋白质的不同变体。换句话说,研究揭示了数千种此前从未被收录的蛋白质变体。

SUB1基因便是一个例子,它参与DNA修复等基本的细胞过程。研究人员发现,秘鲁血统个体产生了不同的SUB1转录本。这种RNA分子会改变最终合成的蛋白质,但目前所有的基因注释均未记载该变异。

当研究人员按照血统对数据进行分组时,他们发现非欧洲样本中存在大量未见过的转录本,其数量远超欧洲样本。研究共发现2,267个群体特异性的转录本。在欧洲人群中,这些转录本大多已知晓,而在非欧洲人群中,绝大多数为全新发现。

其中,773个新发现的转录本似乎来自之前未被识别的基因位点,这表明它们所在的基因区域也许是科学界尚未知晓的。

研究人员还测试了采用个人DNA序列作为参考是否能发现更多遗漏转录本。他们发现,从标准参考基因组切换到个性化基因组后,每名个体可额外发现数百个转录本,其中非洲血统人群的增幅最大。

迈向人类的“泛转录组”

通过将数千个新发现的转录本添加到现有基因图谱中,研究人员能检测到更多影响基因行为的遗传效应,尤其是在非欧洲血统的人群中。

共同通讯作者、巴塞罗那超级计算中心的Marta Melé指出:“我们发现,许多具有血统偏向性的转录本出现在与自身免疫性疾病、哮喘和代谢特征相关的基因中。”

Melé博士解释说,这并不意味着转录本本身造成了疾病差异,而是帮助科学家发现之前隐藏的遗传信号。如果参考图谱中没有这些转录本,研究人员就会错过一些关键信息,无法理解为何某些疾病在特定群体中更常见或表现形式不同。

研究人员强调,这项工作仅仅是第一步,且存在诸多的局限性。研究仅分析了来自单一组织的一种细胞类型,且样本仅来自43名个体。全球多个地区尚未被纳入研究,人体最复杂的器官也未被研究。

近年来,人类泛基因组计划等大型国际项目已开始扩展参考基因组,以捕获全球范围内更多的DNA多样性。然而,DNA仅仅是指令。为了理解这些指令如何被使用,研究界还需要人类泛转录组(pantranscriptome)。

“泛基因组告诉我们DNA的多样性,它本质上是本说明书;而泛转录组告诉我们身体每个细胞中哪些词汇是重点。两者对于全面了解人类多样性都至关重要,” Melé博士解释说。


生物通微信公众号
微信
新浪微博


生物通 版权所有