精细尺度的群体结构和人类群体间跨性状遗传效应大小的广泛守恒

时间:2025年2月4日
来源:Nature Genetics 31.8

编辑推荐:

本研究引入了祖先成分的概念,并表明它们可以为地理相关性状提供更好的种群分层校正。通过在混合个体中使用祖先感知的多基因评分结构,作者发现效应值在祖先群体中是保守的。

广告
   X   

探究人类群体遗传结构与多基因分数转移性的重要进展


牛津大学统计系等多单位的研究人员 Sile Hu、Lino A. F. Ferreira 等人在《Nature Genetics》期刊上发表了题为 “Fine-scale population structure and widespread conservation of genetic effect sizes between human groups across traits” 的论文。该研究在人类遗传学领域意义重大,深入剖析了不同人群间的遗传差异,为基因组关联研究(GWAS)和多基因分数(PGS)的应用提供了关键见解,有助于规避 GWAS 中的混淆因素,提升 PGS 在不同人群中的适用性。

研究背景


GWAS 已发现众多影响人类复杂性状的遗传因素,但遗传分层会干扰研究结果,导致效应大小估计出现偏差,同时 PGS 在不同血统人群中的准确性下降。此外,对于因果变异在不同群体中对性状的影响程度,学界存在争议,基因 - 基因、基因 - 环境相互作用是否为导致 PGS 转移性不佳的主因也尚无定论。明确这些因素对成功应用遗传研究成果、设计高效研究以及理解群体间性状变异的驱动因素至关重要。

研究材料与方法


研究材料


研究使用了英国生物银行(UK Biobank)的数据,涵盖 487,409 名参与者的基因型和表型数据。同时,研究还借助了 1000 Genomes 项目、UK10K 等第三方提供的遗传数据作为参考面板。

关键技术路线


  1. 精细血统推断流程:研究人员开发了一种统计流程,将基因组的精细血统分解为 127 个区域。该流程利用先前研究数据生成统一的单倍型参考面板,通过 ChromoPainter 和 fineSTRUCTURE 进行标记,再使用非负最小二乘法(NNLS)推断个体的血统系数。
  2. ANCHOR 方法:为估计不同群体间因果效应大小的相似性,研究人员开发了 ANCHOR 方法。该方法基于混合血统个体,利用基因组中局部血统的变异,通过比较不同血统片段中 PGS 的预测能力,估计实际效应大小的相关性。

研究结果


精确推断个体血统的统计流程


研究人员开发的方法可将基因组精细血统分解为 127 个区域,在英国生物银行数据集中识别出 105 个至少在 5 个人中占其血统 10% 以上的区域。通过与个体出生地和自我报告的种族信息对比,验证了该流程的有效性。例如,对于英国和爱尔兰出生且自我报告为白人英国和 / 或爱尔兰(WBI)种族的参与者,平均血统比例为英国 - 爱尔兰(BI)94.9%、荷兰 1.35% 等;对于自我报告为 “其他白人背景” 的参与者,BI 比例降至 25.5%。这表明该流程能准确捕捉地理和种族信息。

英国各地的精细群体结构


对英国及爱尔兰出生的参与者分析发现,不同地区的平均血统比例存在差异,如英国 - 爱尔兰血统比例与出生地的地理距离相关,且非英国血统在地理上也有不同分布。此外,通过熵统计发现伦敦等地的血统混合程度较高。对于非英国出生的个体,虽部分国家样本显示遗传同质性,但多数呈现多样的血统模式,如在乌干达和肯尼亚出生的英国生物银行个体中,古吉拉特血统的比例过高。

ACs 有助于 GWAS 对地理相关性状的分层


研究人员比较了 127 个 ACs 与主成分分析(PCs)在 GWAS 中的应用。通过预测 PCs 和实际 GWAS 分析发现,ACs 能捕获 PCs 未涵盖的信息,在纠正群体分层方面更有效。以出生地(纬度)为例,PCs 校正或 BOLT - LMM 分析产生了大量虚假关联和基因组膨胀(LDSC 截距为 1.6608),而 ACs 校正将关联信号从 470 个减少到 7 个,有效去除了分层影响。此外,对于 “就业得分英格兰” 等区域定义的性状,ACs 校正能减少假阳性,且在其他非区域定义的性状分析中,ACs 也能避免 PCs 过度校正导致的假阴性。

不同血统间因果效应相似


研究人员利用 343,047 名白人英国个体构建 PGS,并在不同血统的独立样本中测试其性能,发现 PGS 的预测能力随遗传距离增加而下降。为探究原因,研究人员使用 ANCHOR 方法分析 8,003 名非洲血统个体。结果表明,对于 53 个定量表型,欧洲血统片段在非洲血统个体中的预测能力与在欧洲血统个体中相似,平均 ρ 估计值为 0.98 ± 0.07,接近 1。这意味着多数因果效应大小在非洲和欧洲血统个体中相似,基因 - 基因和基因 - 环境相互作用可能不是导致 PGS 在英国生物银行中转移性不佳的主要原因,而局部连锁不平衡(LD)和 SNP 频率差异可能是主要因素。

研究结论与讨论


研究人员开发的精细血统推断流程和 ANCHOR 方法,为理解人类血统及其与 GWAS 和 PGS 预测的关系提供了新视角。精细血统成分(ACs)在 GWAS 中能更好地校正混淆因素,减少假阳性和假阴性,尤其在控制地理效应方面表现出色。ANCHOR 方法表明,在英国至少对于多种定量表型,使用欧洲个体的效应大小在非洲血统个体中也能获得相近的性能,这为 PGS 在不同人群中的应用提供了乐观依据。

该研究成果具有多方面的重要意义。在遗传学研究领域,明确了不同人群间遗传效应大小的相似性,为后续研究提供了关键参考,有助于推动联合精细定位等工作,简化遗传研究成果在不同群体中的应用流程。在医学应用方面,提升了 PGS 在不同血统人群中的预测准确性,有助于实现更精准的疾病风险预测和个性化医疗。然而,研究也存在一定局限性,如当前 ACs 具有一定的英国特异性,未来需要开发非英国地区的区域特异性 ACs。此外,对于某些特定性状,效应大小的差异仍需进一步研究。随着 GWAS 样本量的增加和研究方法的不断改进,有望更深入地揭示不同人群间遗传效应的差异及其影响因素。

相关新闻
生物通微信公众号
微信
新浪微博


生物通 版权所有