针对4.4万高纯合度的英国南亚裔全外显子测序及分析揭示新基因-表型关联与人类“敲除”模型

时间:2026年3月28日
来源:Nature Genetics

编辑推荐:

本推荐介绍了一项针对英国南亚裔人群的大规模遗传学研究。为解决该群体在基因组学研究中代表性不足及高近交度带来的独特遗传学问题,研究者对44,028名“基因与健康”(G&H)项目参与者进行了全外显子组测序,并关联其纵向电子健康记录。研究不仅揭示了超过100个新的基因-表型关联,还识别了2,991个存在罕见双等位基因预测功能丧失(pLoF)基因型的基因,为理解人类疾病机制、评估药物靶点及解读临床意义不明变异提供了宝贵洞见。

广告
   X   

在人类遗传学研究的宏伟蓝图中,一个显著的缺口长期存在:来自非欧洲祖先群体,特别是南亚裔人群的数据严重不足。这种不平衡不仅关乎研究的公平性,也意味着我们可能错失了仅存在于特定人群中的独特基因变异谱所带来的科学发现。与此同时,对许多人类基因功能的理解,尤其是那些“敲除”(即功能完全丧失)后在人体内会产生何种表型效应,仍然知之甚少。传统上,这依赖于成本高昂且伦理复杂的动物模型。那么,是否存在一个天然的“人类基因功能实验室”,能够让我们观察基因缺失在自然人群中的长期效应?
英国“基因与健康”(Genes & Health, G&H)研究项目正是这样一个独特的“实验室”。该项目聚焦于居住在英国、具有高近交(consanguinity)传统的巴基斯坦和孟加拉裔成年人群体。高近交率导致该人群中纯合基因型,特别是罕见功能丧失变异纯合子的比例显著升高,这为研究基因的“敲除”效应提供了绝佳机会。近日,一项针对44,028名G&H参与者的大规模研究成果在《Nature Genetics》上发表,研究人员通过对这些个体进行全外显子组测序,并将其与详细的纵向电子健康记录(EHR)相链接,构建了一个大型的、公开可用的南亚裔外显子组资源库。这项研究旨在回答:在这个独特的队列中,我们能发现哪些新的基因与疾病或健康指标之间的关联?那些携带罕见“双敲除”(biallelic knockout)基因型的个体,其健康状况如何,又能为生物医学带来何种启示?
为了回答这些问题,研究团队采用了多种关键技术与方法。核心是基于44,028名英国巴基斯坦和孟加拉裔志愿者的唾液样本进行全外显子组测序,并对产生的海量数据进行严格的质量控制变异注释,利用LOFTEE等工具识别高可信度的预测功能丧失(pLoF)变异。研究将遗传数据与来自英国国民健康服务体系(NHS)的纵向电子健康记录深度链接,从中提取了645个定量与二分类表型用于关联分析。统计上,研究使用了REGENIE软件进行全外显子组范围的罕见变异关联分析,包括加性和隐性模型。此外,为识别复合杂合子,研究进行了统计性单体型定相。为了增加发现能力和验证结果,研究还利用英国生物银行(UK Biobank)的欧洲裔数据进行了跨祖先荟萃分析。最后,通过比对ClinVar、OMIM等数据库,并结合详细的病历审查,对在已知常染色体隐性(AR)疾病基因中发现的纯合pLoF携带者进行了表型谱分析与临床意义解读
研究结果
1. 44,028例南亚裔外显子序列中的蛋白质编码变异与群体结构
研究人员从经过严格质量控制的44,028例G&H外显子序列中,共识别出4,723,926个变异。其中,122,690个被标注为高可信度预测功能丧失(pLoF-HC)变异,524,290个为预测有害错义(pDM)变异。与gnomAD数据库中非芬兰欧洲裔(NFE)数据相比,G&H中26.2%的变异在gnomAD中完全不存在,24.4%存在于gnomAD但不存在于NFE亚群中,18.8%的变异在G&H中的等位基因频率(AF)比在gnomAD-NFE中高10倍以上。队列中59%为孟加拉裔,40%为巴基斯坦裔,且具有较高的自报父母亲缘关系比例(22.8%)和基因组纯合片段(ROH)比例。通过身份同源(IBD)聚类,在巴基斯坦裔亚群中识别出21个具有不同等位基因富集特征的亚群。
2. 罕见变异关联分析
2.1 针对645个EHR衍生表型的全外显子组关联分析
研究对54个定量表型和591个二分类表型进行了关联分析。在控制了群体结构和亲缘关系的干扰后,共发现了1,191个单变异关联和722个基因基关联。其中,涉及169个独特基因-定量表型对和40个基因-二分类表型对,有66对(32%)是此前未报道过的“新发现”。许多新关联由在G&H中独有或显著富集的罕见变异驱动。例如,发现了三个罕见的ABCB6基因pDM变异与血清钾水平升高的新关联,该基因已知突变可引起假性高钾血症。另一个例子是MMACHC基因的pLoF/pDM变异负荷与维生素B12水平的显著关联,该基因突变可导致甲基丙二酸尿症伴同型半胱氨酸尿症cblC型。
2.2 与UKB的33个心脏代谢性状荟萃分析
通过与英国生物银行(UKB)的欧洲裔数据进行跨祖先荟萃分析,发现了更多新的关联。在单变异分析中,399个关联仅在荟萃分析中变得显著;在基因基分析中,21个基因-表型对仅在荟萃分析中达到显著性。例如,LMNA基因的pLoF/pDM变异负荷与心房颤动/扑动风险显著相关。ADCY6基因的 singleton pLoF-HC 负荷与脑出血风险极高相关。一个SLC7A7基因的罕见无义变异与动脉粥样硬化风险显著相关。
2.3 基于双等位基因型的隐性负荷分析
利用队列高纯合度的特点,研究进行了隐性模型关联检验。在识别了纯合和经定相确认的复合杂合基因型后,构建了基因的隐性负荷。共发现了13个在隐性模型下显著的关联。其中,NLRP10HSD17B14NCAPD2三个基因的关联显示出了显著的非加性(隐性)效应模式。例如,NLRP10的隐性基因型携带者患病毒性肺炎的风险显著增加。
3. 来自人类“敲除”的启示
3.1 发现2,991个具有推定人类“敲除”的基因
在G&H外显子组中,共识别出2,991个存在双等位基因pLoF基因型(即人类“敲除”)的基因。与UKB中近交度低的欧洲裔群体相比,G&H中以更小的样本量发现了更多带有“敲除”的基因,且新基因的发现速度接近线性增长。其中546个基因是在G&H中首次被发现存在人类“敲除”。
3.2 人类“敲除”在AR疾病基因变异解读中的临床效用
在G&H中,发现有368个已知的常染色体隐性(AR)孟德尔疾病基因存在pLoF变异纯合子携带者。通过详细审查这些携带者的健康记录,可以为其所携带的、在ClinVar中标注为意义不明(VUS)或解释冲突(CI)的变异提供致病性支持证据。例如,一名LPL基因无义变异的纯合子携带者表现出持续极高的甘油三酯水平和相关诊断,支持了该变异(在ClinVar中标注为冲突解释)的致病性。这些相关定量表型(如血脂水平)在纯合子、杂合子和非携带者中呈现出清晰的隐性模式。
3.3 从人类“敲除”看药物研发
分析发现,以具有“敲除”个体的基因为靶点的拮抗型药物,成功通过临床试验Ⅰ期(主要关注安全性)的概率是其他药物的2.2倍。对特定“敲除”个体表型的深入分析,可以为靶向该基因的药物的预期疗效和潜在安全性提供参考。例如,SLC10A2基因“敲除”个体的低密度脂蛋白胆固醇水平显著降低,与靶向该基因的抑制剂在临床试验中观察到的降胆固醇效果一致。而HSD17B13基因“敲除”的女性个体有成功妊娠的记录,这为靶向该基因的RNAi疗法在生殖安全性方面提供了初步的安心信息。
结论与讨论
本研究展示了在一个具有高纯合度的南亚裔大型队列中进行全外显子组测序的力量,它驱动了新的生物学发现。研究不仅识别了超过100个先前未报告的基因-表型关联,还发现了500多个在成人中存在纯合pLoF基因型(即“人类敲除”)的基因。这些“敲除”个体及其丰富的表型信息,为理解基因功能、评估药物靶点的有效性与安全性,以及解读临床意义不明的遗传变异提供了独一无二的宝贵资源。
研究强调了增加非欧洲裔人群在遗传学研究中的代表性的双重重要性:既是追求健康公平的伦理要求,也是最大化科学发现的关键。G&H队列中独特的高频罕见变异和特殊的等位基因频谱,是许多新发现的核心驱动力。跨祖先荟萃分析进一步证明,结合不同人群的数据可以显著提升统计效能,发现那些在单一祖先群体中因效力不足而被掩盖的关联。
随着G&H项目规模向10万人迈进,预计将发现更多带有“敲除”的基因。未来,整合转录组、蛋白质组和代谢组等多组学数据,并结合召回携带者进行深入表型分析的能力,将进一步增强从这些罕见基因型中解读基因型-表型关系的能力,并将功能等位基因系列扩展到pLoF变异之外。
总之,G&H外显子组资源为推进南亚裔人群(一个在基因组研究中历史上代表性不足的群体)的生物医学研究提供了宝贵机遇,同时极大地拓宽了我们对人类健康与疾病的理解,并为拓展治疗选择提供了新的思路。

生物通微信公众号
微信
新浪微博


生物通 版权所有