基于汇总统计的基因检验元分析新工具REMETA:提升大规模遗传研究的计算效率与应用广度

时间:2025年11月13日
来源:Nature Genetics

编辑推荐:

本刊推荐研究人员开发出高效元分析工具REMETA,解决多表型大规模遗传研究中基因检验协方差矩阵计算、存储和共享的难题。该研究通过构建稀疏参考LD文件并开发等位基因频率估计算法,在UK Biobank 469,376例样本中验证了方法对病例对照不平衡性状的校准优势,显著提升了跨祖先数据集的药物靶点发现效率。

广告
   X   

随着大规模外显子组关联研究(ExWAS)在过去十年中的蓬勃发展,科学家们通过聚焦蛋白质编码变异发现了众多疾病相关基因。这些发现不仅为疾病机制提供了直接解释,更催生了如GPR75抑制剂治疗肥胖、CIDEB靶向治疗肝病等新型治疗策略。然而,当研究需要整合多个独立数据集进行元分析时,传统方法面临严峻挑战——每个研究和表型都需要单独计算并共享变异位点间的协方差矩阵,对于包含大量表型的大规模研究而言,这些矩阵的计算、存储和共享变得异常繁琐。
为解决这一瓶颈问题,Regeneron Genetics Center的研究团队在《Nature Genetics》上发表了题为“Computationally efficient meta-analysis of gene-based tests using summary statistics in large-scale genetic studies”的技术报告。研究人员开发出REMETA这一创新工具,其核心突破在于只需为每个研究构建一个稀疏参考LD文件,即可通过汇总统计量对不同表型进行重新缩放,从而避免为每个表型重复计算LD矩阵。该方法不仅适用于常规定量性状,还针对病例对照高度不平衡的二元性状开发了新的校准策略,并能从汇总统计量中准确估计等位基因频率、基因型计数和负担检验效应值。
研究团队通过五个关键技术环节实现突破:首先证明基于全样本构建的参考LD矩阵可替代特定子集的精确LD矩阵;其次开发了按染色体存储的二进制文件格式,支持快速提取单个基因的LD信息;第三建立了从汇总统计量估计负担检验基因型计数的算法;第四扩展了针对高度不平衡二元性状的校准方法;最后集成上述方法形成开源软件包REMETA,并与REGENIE软件无缝衔接。
2阈值评估'>
在UK Biobank的469,376例样本中,研究人员对体重指数(BMI)、低密度脂蛋白(LDL)、乳腺癌、结直肠癌和甲状腺癌五个性状进行实证分析。结果显示,基于参考LD矩阵计算的近似P值与精确LD矩阵结果高度一致(扩展数据图1-2)。在条件分析中,当缓冲区设置为2cM且r2阈值>0.0001时,REMETA能有效排除大多数常见变异信号的干扰(图3)。与需要为每个表型计算LD矩阵的MetaSTAAR相比,REMETA在20万样本量下计算速度提升2.5倍,内存使用减少77%,文件存储减少56%(表1)。
特别值得关注的是,在跨三个UK Biobank子集(总计469,376样本)的元分析中,REMETA检测到117个显著基因-性状关联,而标准元分析方法仅发现98个(图5)。其中13个REMETA特有信号由SKATO-ACAT检验主导,表明基于汇总统计的SKATO和ACATV元分析比传统P值元分析(PVMA)更具效力。通过应用ESM-1v蛋白质语言模型注释的重新分析演示,REMETA仅需7.94 CPU分钟即完成chr.20的BMI数据分析,而REGENIE需要162.9 CPU分钟,凸显其快速迭代分析的优势。
该研究的创新价值在于首次实现单个研究级LD矩阵支持多表型基因检验元分析,通过高效存储结构和算法优化显著降低计算资源需求。REMETA框架为分散在不同可信研究环境(如UK Biobank RAP和All of Us Researcher Workbench)的生物样本库数据提供了可行的元分析解决方案,将加速跨人群遗传发现的临床转化。未来工作可探索将新协变量整合至参考LD矩阵的方法,进一步拓展该技术的应用边界。

生物通微信公众号
微信
新浪微博


生物通 版权所有