在人类遗传学研究中,基因组关联分析(GWAS)已成功识别出数千个与复杂性状和疾病相关的基因位点。然而,如何从高度连锁不平衡(LD)的基因组区域中精准定位真正的因果变异,仍是当前研究的难点。传统单性状精细定位方法存在统计效能不足、分辨率有限等问题,尤其当多个相关性状共享遗传基础时,独立分析会忽略性状间的关联信息。为此,研究人员开发了多性状精细定位方法mvSuSiE,通过扩展Sum of Single Effects(SuSiE)模型,实现对多性状遗传数据的联合分析。
为验证mvSuSiE的性能,研究团队利用英国生物样本库(UK Biobank)中24.8万例样本的基因型和16种血细胞性状数据,对比了mvSuSiE与单性状SuSiE、CAFEH等方法的表现。结果显示,mvSuSiE在模拟数据和真实数据中均显著提升了对因果单核苷酸多态性(SNP)的检测能力,其识别出的高置信度因果SNP数量较单性状方法增加3.5倍,且可信集纯度更高。此外,mvSuSiE能够自动学习性状间效应共享模式,例如发现约68%的因果SNP对多个血细胞类型具有显著影响。
本研究的关键技术方法包括:基于多元线性回归的统计模型、极端反卷积(ED)算法估计效应共享模式、以及迭代贝叶斯逐步选择(IBSS)算法进行变量选择。分析中使用了UK Biobank的基因型数据和标准化血细胞性状测量值,并通过样本协方差矩阵校正群体结构干扰。
多性状精细定位模型构建
mvSuSiE将多性状关联分析建模为多元回归问题,其中基因型矩阵X与多性状表型矩阵Y的关系通过效应矩阵B表示。该方法通过引入混合正态先验分布,灵活捕捉因果SNP在不同性状中的效应模式,并利用摘要统计量(如z分数)进行高效计算。
模拟实验验证效能优势
在模拟实验中,mvSuSiE相较于CAFEH等方法展现出更优的校准性能和错误发现率控制能力。特别是在性状相关性复杂的场景中,其因果SNP检测效能提升2.2倍,且可信集规模缩小至中位数7个SNP。
血细胞性状的遗传异质性解析
对16种血细胞性状的实证分析揭示,遗传效应存在显著异质性:例如在TNS3基因座识别出三种不同效应模式的因果信号,分别特异性影响红细胞性状、高光散射网织红细胞百分比(HLR%),或同时影响白细胞与血小板性状。而在RUNX1基因座,mvSuSiE检测到11个独立信号,表明该区域通过多通路调控免疫相关性状。
生物学机制的功能富集证据
通过GREGOR和gchromVAR富集分析发现,mvSuSiE定位的因果SNP显著富集于造血细胞系的开放染色质区域,且与血液疾病相关eQTL重叠率更高,印证了其在解析生物学机制方面的优势。
本研究提出的mvSuSiE方法为多性状遗传定位提供了高效解决方案,其能够兼容个体水平数据与摘要统计量,并适应复杂性状相关性。该模型对血液病机制研究、多基因风险评分优化具有重要价值,相关方法已发表于《Nature Genetics》。
打赏