本研究提出了一种名为FAME(FAst Marginal Epistasis test)的新方法,旨在高效检测大规模基因组数据中单个SNP的效应受遗传背景调节的现象,即边际表型互作。该方法通过方差成分模型,将表型变异分解为加性遗传效应、边际互作效应和残差噪声,并利用随机化方法降低计算复杂度,从而适用于生物银行级别的数据集(如UK Biobank包含约30万人份的样本和50万SNP的数据)。研究显示,FAME能够有效识别16个显著互作信号,涉及12种复杂性状,且这些信号在All of Us(AoU)独立数据集中得到验证,表明方法具有良好的可重复性。
### 方法创新与验证
FAME的核心在于解决传统互作检测方法在计算效率和统计功效上的双重挑战。传统方法需逐一测试所有SNP对,计算复杂度为O(M²),在50万SNP规模下无法实现。FAME采用随机化矩估计(MoM)技术,通过将原始基因型矩阵与随机向量相乘,将维度从M×M降至B×B(B为随机向量数量,本研究取100),使计算复杂度降低至O(NMB/lnN),其中N为样本量。这一改进使得FAME首次能够处理生物银行规模的基因组数据。
方法验证阶段通过模拟数据集测试了FAME的统计特性。研究发现,当加性遗传方差占比为25%时,FAME在10%因果SNP比例下的P值校准误差范围仅为0.8-1.4倍,满足实际应用需求。此外,FAME对非线性协变量、基因-环境交互作用、重尾噪声分布及SNP标记不完美性具有鲁棒性,在模拟环境中均保持统计校正。
### UK Biobank数据应用
在53项定量性状(涵盖代谢、心血管、骨骼等系统)的UKBB数据(30万样本,50万SNP)分析中,FAME识别出16个显著互作信号(校正后P<5×10⁻⁸/53)。值得注意的是,这些互作效应的方差贡献量(h²)中位数为0.01-0.02,约为对应GWAS显著SNP效应量的3-50倍,表明遗传背景的调节作用可能远超已发现的加性效应。例如,在肝酶ALT相关信号中,互作效应量甚至达到14.8%的方差贡献。
### 信号定位与功能解析
通过染色体局部化分析,发现83%的显著互作发生在目标SNP所在染色体(局部互作),而17%的信号涉及跨染色体互作。在局部互作中,目标SNP与互作SNP的物理距离中位数为755kb,LD强度(r²)中位数为0.0019,提示互作可能不依赖紧密连锁关系。功能基因组学分析显示,互作SNP多位于高功能调控区域,其中:
1. **PNPLA3基因区**:rs3827385与rs738409的互作影响ALT水平,后者为已知的肝脏疾病风险SNP,且与HSD17B13基因的互作被先前研究部分证实。
2. **脂蛋白A(LPA)基因区**:APOE基因附近的rs72654473与LPA基因区的rs6935921存在显著互作,其中后者为已知的血脂调节SNP。
3. **性激素通路**:与睾酮相关的rs11555142和rs28990703分别显示性别特异性互作,前者位于ESR2调控区域,后者与LEF1和ZNF652的转录因子结合位点相关。
### 生物学意义与临床启示
研究发现边际互作效应与GWAS信号存在显著独立性(相关系数仅0.022),表明传统GWAS方法可能遗漏重要背景调节机制。例如,在胆固醇代谢相关信号中,互作效应通过调节载脂蛋白合成影响血脂水平,而加性效应主要作用于编码蛋白的基因本身。这种分层作用模式提示,精准医疗可能需要同时考虑主效SNP和背景调节SNP的组合效应。
### 研究局限与未来方向
当前研究存在三方面局限:1)仅分析常染色体SNP,未覆盖非编码区及罕见变异;2)互作效应的生物学机制尚未完全明确,需结合多组学数据验证;3)方法未考虑环境因素的动态调节。未来研究可拓展至疾病表型,探索互作效应的性别异质性和环境依赖性,并开发基于机器学习的边际互作效应预测模型。
该研究首次在生物银行规模数据中系统揭示边际互作效应的存在,为复杂性状遗传解析提供了新范式。其技术框架(随机降维+分层效应建模)为后续开发多维度互作分析工具奠定了基础,特别在肿瘤精准分层和代谢综合征风险预测方面具有潜在应用价值。
打赏