在生命科学和医学领域,基因组研究对于揭示人类健康和疾病的奥秘至关重要。全基因组关联研究(GWAS)通过分析大量个体的基因组数据,寻找与疾病或健康相关的遗传变异,为疾病的预防、诊断和治疗提供了关键线索。然而,目前该领域面临着严峻的挑战。一方面,现有数据共享法规限制了不同机构间的数据合作,使得大规模的基因组研究难以开展。另一方面,虽然加密计算工具为保护数据隐私带来了希望,但现有的方法要么计算成本过高,不切实际,要么无法支持当前最先进的分析方法,如基于主成分分析(PCA)和线性混合模型(LMMs)的分析流程,这些方法对于准确评估遗传关联信号至关重要。
为了解决这些问题,来自耶鲁大学医学院、麻省理工学院和哈佛大学博德研究所等机构的研究人员开展了一项极具创新性的研究 —— 安全联邦全基因组关联研究(SF-GWAS)。研究结果表明,SF-GWAS 成功实现了在保护数据隐私的前提下,对多个机构的私有基因组数据进行高效、准确的联合分析,这一成果发表在《Nature Genetics》上,为基因组研究领域带来了新的突破。
研究人员在开展研究时,运用了以下几个主要关键技术方法:
- 结合安全多方计算(MPC)和同态加密(HE)技术,构建混合加密框架。在这个框架中,利用 HE 进行大规模矩阵和向量的本地计算,利用 MPC 进行非线性操作,以此提高计算精度和效率。
- 针对 PCA 和 LMMs 这两种重要的 GWAS 分析流程,设计了高效的联邦算法。在算法设计中,通过多种策略优化性能,例如最大化利用本地明文数据,减少数据传输和计算成本。
- 采用多个生物样本库数据集进行实验验证,如 UK Biobank 队列、eMERGE 联盟数据集等,这些数据集包含了大量个体的基因组数据和相关表型信息,为研究提供了丰富的数据支持。
接下来具体介绍研究结果:
- 与传统方法对比:将 SF-GWAS 与之前的 S-GWAS 方法进行对比分析,在分析肺癌、膀胱癌和年龄相关性黄斑变性(AMD)等数据集时,SF-GWAS 在运行时间和通信成本上都有显著降低。运行时间上,SF-GWAS 比 S-GWAS 快一个数量级,如在 AMD 数据上,SF-GWAS 运行时间为 4.6 小时,而 S-GWAS 为 64.3 小时;通信成本方面,SF-GWAS 比 S-GWAS 低三到四倍 。同时,SF-GWAS 的分析结果与直接分析合并的明文数据结果非常接近,且安全性更强。
- 可扩展性评估:在更大规模的数据集 eMERGE(n = 31,293)和 UK Biobank(UKB;n = 275,812)上评估 SF-GWAS 的可扩展性,以体重指数(BMI)为分析特征。结果显示,S-GWAS 因运行时间过长无法在这些数据集上评估,而 SF-GWAS 能够高效运行。其运行时间随数据集大小呈线性增长,且在不同数据分布情况下,SF-GWAS 的结果都与集中式分析结果几乎相同。
- 不同分析流程的准确性验证:基于 LMMs 的关联测试中,在包含 409,548 名欧洲血统个体的 UKB 数据集上,SF-GWAS 产生的关联统计结果与直接在合并数据集上运行的 REGENIE 结果准确匹配;在分析二进制性状(如疾病状态)时,SF-GWAS 采用基于牛顿法的分数检验算法,对三个 S-GWAS 数据集重新分析,结果与 PLINK 一致,且运行时间较短 。
- 跨机构数据集分析:应用 SF-GWAS 分析不同组织独立收集的数据集,如国际 AMD 基因组学联盟(IAMDGC)、eMERGE 联盟和 UKB 的 AMD 相关数据集。尽管这些数据集来自不同的基因分型平台,但通过数据预处理和交集分析,最终得到 111,807 个个体的 GWAS 数据集。SF-GWAS 在该数据集上运行准确,确定了与 AMD 相关的重要基因位点。
研究结论和讨论部分指出,SF-GWAS 提供了一种安全且联邦化的方法,能够在严格的隐私保护下进行多站点 GWAS 研究,且具有良好的可扩展性。该研究成果为未来基因组数据分析方法的发展提供了重要的技术支持,加速了安全基因组数据分析方法的开发。在全球对个人敏感数据共享的担忧和法律限制日益增加的背景下,SF-GWAS 为跨机构的生物医学研究合作奠定了坚实的基础,有望推动未来生物医学领域取得更多的突破,帮助人们更好地理解遗传变异与健康和疾病之间的关系,从而为个性化医疗和疾病预防提供更有力的支持 。