多基因风险评分与全表型关联研究揭示EBV抗体反应的遗传图谱及其与自身免疫病的关联

时间:2026年3月17日
来源:Frontiers in Genetics

编辑推荐:

这项研究通过开发并验证了一个针对EB病毒核抗原1(EBNA1)IgG抗体反应的多人群、多基因风险评分(PRS),为在缺乏血清学测量的大型群体中进行EBV抗体反应性的遗传学剖析提供了有效工具。研究发现,遗传预测的EBNA1抗体水平与多发性硬化症(MS)呈正相关,但与乳糜泻、1型糖尿病等自身免疫病呈负相关,揭示了EBV免疫反应与自身免疫病之间共享与分化的复杂遗传关系,为探索其潜在机制和临床转化提供了新视角。

广告
   X   

摘要
本研究旨在评估影响针对EB病毒(EBV)体液免疫反应的遗传因素,并建立一个预测抗EB病毒核抗原1(EBNA1)抗体反应的多基因风险评分(PRS)。研究人员利用英国生物样本库(UK Biobank, UKB)、巴斯德研究所Milieu Intérieur(MI)队列以及来自非洲血统个体的全基因组关联研究(GWAS)汇总统计数据,进行了多生物样本库遗传学研究。通过将队列分为发现集和验证集,进行GWAS分析,并使用贝叶斯多血统方法(PRS-CSx)开发了PRS。在成功验证PRS的预测性能后,研究人员将其应用于UKB数据集进行全表型关联研究(PheWAS)分析。
引言
EB病毒是一种普遍存在的人类γ疱疹病毒,与恶性肿瘤密切相关,并且越来越多证据表明其对特定自身免疫病有因果贡献。EBV主要通过唾液接触传播,原发感染后通过感染B细胞并在记忆B细胞区室中维持潜伏期,从而建立终身持续性。在美国,EBV血清阳性率从儿童的约50%上升到青少年的近90%。在潜伏期,EB病毒核抗原1(EBNA1)是维持病毒感染B细胞中病毒附加体所必需的。包括EBNA1和潜伏膜蛋白2A(LMP2A)在内的潜伏相关EBV基因,可以支持B细胞的活化和分化程序,在易感环境下有助于EBV相关癌症的发生,如鼻咽癌和霍奇金淋巴瘤。
EBV也与自身免疫密切相关。多项研究表明,升高的EBNA1特异性IgG滴度与多发性硬化症(MS)和系统性红斑狼疮(SLE)的风险相关。提出的机制包括分子拟态和抗EBNA抗体与疾病相关自身抗原之间的交叉反应,可能对疾病的发生或严重程度产生下游影响。血清学指标,包括针对EBNA1和病毒衣壳抗原(VCA)的抗体,被广泛用于分别表征宿主对潜伏感染和病毒再激活的体液免疫反应。急性EBV感染通常通过存在VCA IgG和VCA IgM但缺乏EBNA1 IgG来识别,而既往感染则通过存在VCA IgG和EBNA1 IgG但无VCA IgM来标记。EBNA1的高度免疫原性C末端结构域(残基380-641)是宿主抗体的关键靶点,使其成为用于识别既往感染、鼻咽癌和多发性硬化症的关键标志物。
EBV抗体反应的个体间差异部分由遗传决定,先前工作估计IgG反应的遗传力在32%至48%之间。全基因组关联研究(GWAS)一致表明人类白细胞抗原(HLA)II类区域是包括EBNA1抗体水平在内的IgG反应变异性的主要贡献者。这些观察结果共同推动了能够大规模应用的EBV体液免疫遗传预测因子的开发。
本研究旨在开发一个用于预测EBNA1 IgG反应的PRS,以评估个体产生较高或较低抗体水平的遗传倾向。研究人员利用了欧洲和非洲血统人群的GWAS数据,并应用贝叶斯多血统多基因模型以提高可移植性。随后在独立队列中验证了PRS的性能,并使用全表型关联分析来评估遗传预测的EBNA1反应的临床和免疫学关联。
研究方法
研究人群:本研究参与者选自英国生物样本库(UKB),这是一个大型长期生物样本库队列,支持研究遗传易感性和环境暴露对疾病发展的贡献。UKB的后插补基因组数据通过申请号47377获得。本研究还获得了访问巴斯德研究所Milieu Intérieur(MI)队列的批准,该队列包含1000名健康欧洲个体的插补基因分型数据和全面的病毒血清学信息。此外,还从一个近期大型研究中获得了非洲血统人群EBV(EBNA1)抗体反应的GWAS汇总统计数据,用于多血统PRS开发。质量控制后的研究人群详情见表1
血清学:先前已在UKB人群的9695名个体中测量了针对EBV(EBNA1)的IgG抗体反应;该数据集用于GWAS评估和PRS开发。该方法提供中位荧光强度(MFI),是通过测量分析物-捕获剂复合物发出的荧光获得的样本中抗体量的标准化定量。验证使用了独立的血清样本和参考金标准。在这种多重方法中,使用了C末端结构域(特别是氨基酸325-641)来检测针对EBNA1的高亲和力IgG抗体。应用质量控制后,我们将该队列分为两个独立群体,其中80%无关的英国白人血统个体用于GWAS发现和PRS开发(N = 6662)。此外,非洲血统EBV(EBNA1)抗体反应的GWAS汇总统计数据包含4365名非洲血统个体,用于多血统PRS开发。对于PRS模型的验证和预测性能评估,我们使用了UKB队列中剩余的20%个体(n = 1965),以及来自巴斯德研究所Milieu Intérieur(MI)队列的另外1000名健康欧洲个体。
GWAS相关分析:对具有可用EBNA1抗体滴度信息的UKB受试者进行了全基因组关联研究(GWAS)。标准化抗体滴度用作回归分析中的数量性状。首先,个体基因型数据经过一系列质量控制,所有分析均限于检出率>99%、次要等位基因频率>1%且哈迪-温伯格平衡检验p>0.00001的SNP。使用PLINK的KING稳健亲缘关系系数方法去除性别不一致、重复或双胞胎个体以及一级亲属。质量控制后,UKB数据集中有8627名个体,MI队列中有954名个体用于分析。接下来,使用二代PLINK软件,采用加性遗传模型,并调整10个主成分、性别和年龄,进行定量线性回归分析。最后,使用PLINK中实现的逆方差加权方法对三个经质量控制的GWAS汇总统计(UKB、MI和非洲血统GWAS)进行了荟萃分析。为了促进GWAS结果的功能注释和基因优先级排序,使用FUMA平台工具将关联分析中的显著变异映射到基因。
多基因风险评分开发与性能评估:使用已建立的计算工具(PLINK和PRS-CSx)开发和验证了多基因风险评分,该工具联合建模来自不同血统的GWAS汇总统计,并使用共享的连续收缩先验跨人群耦合遗传效应。在此方法中,程序使用发现集GWAS汇总统计推断遗传变异的效应大小,并使用外部参考面板(即1000基因组计划第3阶段数据)考虑连锁不平衡。在下一步中,使用吉布斯采样器内的逆方差加权荟萃分析合并人群特定的后验效应大小估计。最终的PRS-CSx输出包含723164个HapMap3变异及其后验权重。对于PRS性能估计和验证,我们选择EBNA1标准化分布的前10%作为二元表型的病例阈值,后10%作为对照。PRS预测准确性和性能随后通过受试者工作特征曲线下面积(AUROC)、每1个标准差(SD)的优势比(OR)以及考虑包括10个主成分、年龄和性别在内的协变量后所解释的方差量(R2)来评估。此外,还使用开发的PRS根据制造商标准评估了EBV血清阳性预测准确性。MI队列的血清阳性率为94%,UKB队列为95%,与一般人群一致。
全表型关联研究分析:为了评估所开发PRS与其他任何表型特征的多效性效应,还进行了全表型关联研究(PheWAS)。我们使用了R 3.5.1版本中的PheWAS包。简而言之,在PheWAS过程中,首先根据PheWAS图谱将ICD代码归类为Phecode。然后,根据研究标准确定病例和对照。在这些分析中,病例定义为在不同日期至少发生两次Phecode。对照则没有。此外,我们使用至少20个病例作为阈值来确定模型中使用的代码。接下来,为每个Phecode创建一个逻辑回归模型,并像GWAS研究一样调整年龄、性别和主成分。然后使用PheWAS中实现的错误发现率(FDR)0.05的Benjamini-Hochberg程序来校正多重假设检验的阈值。
结果
在EBNA1 IgG水平的全基因组关联分析中,最强的关联信号位于HLA/MHC区域。在欧洲血统分析中,rs6927022显示出最强的关联。该变异在非洲血统GWAS中也显示出强关联,跨队列荟萃分析产生了组合p值,表明跨血统存在共享关联信号。UK Biobank中几个推算的HLA等位基因与rs6927022存在连锁不平衡,并且也显示出强关联。在MHC区域外,关联信号主要是提示性的。然而,在所有经过质量控制的GWAS汇总统计的荟萃分析中,我们在10号染色体上观察到两个达到或接近全基因组显著性的位点。最强的非MHC信号位于10q22的NRG3基因上游。第二个信号位于10p12的ARMC3基因内。对于这两个位点,跨队列没有异质性证据。在非MHC区域,有72个变异达到了提示性阈值。基于基因的功能映射优先考虑了MHC区域外的14个基因,包括ARMC3和NRG3。优先考虑的非MHC基因的通路富集指出了几个生物学过程,其中最显著的信号存在于嘌呤核苷酸受体信号通路基因集中。
我们接下来使用PRS-CSx结合欧洲和非洲血统发现集GWAS汇总统计,开发了一个多血统多基因风险评分。最终模型包含723,164个具有后验权重的HapMap3变异。在验证分析中,我们通过对比EBNA1 IgG标准化分布的前10百分位数与后10百分位数,评估了对EBNA1 IgG极端值的预测。在UK Biobank验证子集(N = 1,965)中,PRS在调整了年龄、性别和10个主成分的逻辑模型中实现了0.65的AUC。这对应于约6%的方差解释量,以及在极端分位数定义下的病例状态优势比为1.56。在Milieu Intérieur队列(N = 954)中,性能更高(AUC = 0.72;R2= 0.11),每增加1个SD的优势比为1.50。我们还评估了PRS是否预测EBV血清阳性状态。PRS在两个队列中都预测了血清阳性,但血清阴性个体在每个队列中所占比例不到5%。
为了评估遗传预测的EBNA1 IgG反应的表型相关性,我们在UK Biobank中使用标准化PRS进行了PheWAS,并调整了年龄、性别和10个主成分,多重检验控制在FDR<0.05。十大最显著关联总结在表2中。PRS与多发性硬化症显示出显著的正相关,这与先前关于EBV抗体反应与MS之间联系的流行病学证据一致。相反,我们观察到与几种自身免疫表型存在强烈的负相关,特别是乳糜泻和1型糖尿病。为了将这些遗传关联与测量的血清学联系起来,我们在UK Biobank中比较了不同自身免疫表型间的标准化EBNA1 IgG水平。与PheWAS一致,MS患者具有更高的平均EBNA1 IgG水平,而乳糜泻患者的平均水平更低。其他自身免疫表型显示出方向一致的模式,包括强直性脊柱炎、炎症性肠病和类风湿关节炎的平均EBNA1 IgG水平较高,而1型糖尿病的水平较低。
讨论
我们通过利用PRS-CSx整合不同人群的GWAS汇总统计,开发并验证了一个针对EBNA1 IgG抗体反应的多血统多基因风险评分。我们的方法包括四个步骤:利用血清学数据构建PRS;在独立队列中验证该评分;将权重投影到整个UK Biobank人群;以及在严格的多重检验校正下进行全表型关联研究。本研究为EBNA1反应提供了一个稳健、可扩展的遗传代理,使得在缺乏血清学数据的大型队列中进行分析成为可能。
与先前关于宿主遗传控制EBV体液反应的研究一致,我们观察到主要的GWAS信号定位于HLA/MHC区域。虽然本研究的主要目标是利用所有资源开发EBNA1 PRS,而非专注于GWAS发现,但我们的荟萃分析意外揭示了先前未描述的非HLA新效应。这包括10p12(近ARMC3)和10q22(NRG3上游)的两个达到或接近全基因组显著性的信号。这些关联最好被解释为优先进行后续生物学研究的假设,而非确切的机制归因。ARMC3区域与IgG糖基化性状的先前联系促使我们进行针对性评估,以确定EBNA1抗体特征是否介导了观察到的遗传关联。同样,NRG3近端信号可能反映了在抗体反应背景下尚未得到很好表征的调节效应,需要进行功能精细定位以确定因果变异、组织背景和效应基因。
PRS在两个独立验证队列中对EBNA1 IgG极端值显示了可重复的区分能力,在极端分位数设计下AUC范围在0.65-0.72之间。虽然性能不足以进行独立的临床预测,但它非常适合需要根据遗传预测的EBNA1反应对大型队列进行分层的研究应用、富集机制研究的样本,或者在基因-环境分析中将EBNA1反应作为协变量或效应修饰因子。同一个PRS也预测了EBV血清阳性状态,尽管血清阴性个体在两个验证队列中所占比例很小,这限制了对EBV感染状态预测性能的推断。
对EBNA1 PRS进行的PheWAS分析重现了EBV抗体反应与多发性硬化症之间已知的正相关关系,支持了该遗传代理的生物学相关性。值得注意的是,我们还观察到与几种自身免疫表型,特别是乳糜泻和1型糖尿病的负相关,并且这些方向与在UK Biobank中使用测量的EBNA1滴度进行的比较一致。这些发现强调,遗传预测的EBNA1抗体反应并非与自身免疫风险完全一致,相反,它可能反映了共享的HLA驱动效应、疾病特异性免疫结构以及EBV相关免疫反应与不同自身免疫途径相互作用的差异的混合。
重要的是,PheWAS关联不能确定因果关系;需要进一步的研究来理清相关性与机制贡献,并评估这些关系是否通过EBV特异性免疫、更广泛的免疫反应性或相关的遗传因素介导。此外,来自生物样本库和电子健康记录资源的表型可能受到异质性和错误分类的影响,在独立的生物样本库中复制最强的PheWAS发现将非常重要。
总之,这项工作建立了一个经过验证的多血统EBNA1 IgG反应PRS,并展示了基于PRS的PheWAS如何用于探究宿主对EBV体液反应的广泛临床关联。通过使得在无血清学数据的队列中能够间接分析EBV抗体反应,这个PRS为研究基因与环境的相互作用、免疫内表型以及病毒反应与自身免疫之间的联系提供了一个实用工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有