基于共表达模型的eQTL预测改进用于转录组关联研究(Transcriptome-Wide Association Study, TWAS)及揭示新的精神分裂症(Schizophrenia, SCZ)相关基因

时间:2026年6月23日
来源:Nature Genetics

编辑推荐:

大多数与复杂遗传性状相关的遗传变异位于非编码区,被认为通过调控基因表达来影响疾病风险。然而,现有的转录组关联研究(Transcriptome-Wide Association Study, TWAS)主要建模局部(顺式,cis)遗传效应,导致大部分基因调控机制

广告
   X   

大多数与复杂遗传性状相关的遗传变异位于非编码区,被认为通过调控基因表达来影响疾病风险。然而,现有的转录组关联研究(Transcriptome-Wide Association Study, TWAS)主要建模局部(顺式,cis)遗传效应,导致大部分基因调控机制无法被解释。本研究显示,纳入远端(反式,trans)调控效应可改善基因表达的预测精度,并提高疾病相关基因的识别率。研究人员利用来自六个人类死后脑区的RNA测序(RNA-seq)数据,开发了INGENE和MODULE两个模型,用于捕捉基因共表达网络中候选trans作用变异(trans-acting variants)的综合影响。将这两种模型与传统cis预测器整合后,跨脑区可预测基因表达的基因数增加至18,744个(最大似然估计,α = 0.05)。将该框架应用于精神病基因组学联盟(Psychiatric Genomics Consortium, PGC)第三波基因型数据,鉴定出766个与精神分裂症(Schizophrenia, SCZ)相关的基因(错误发现率FDR校正 PFDR< 0.01),其中641个基因为既往TWAS分析未报道过的新基因。这些发现强调了远端调控机制和基因网络互作在精神分裂症易感风险中的重要贡献。
论文解读:《基于共表达模型的eQTL预测改进用于转录组关联研究及揭示新的精神分裂症相关基因》
一、研究背景与立题依据
精神分裂症(Schizophrenia, SCZ)是一种重度精神疾病,遗传度高达60%–80%,全基因组关联研究(Genome-wide Association Study, GWAS)虽鉴定出大量风险位点,但大多数位于非编码区且解释度有限。传统转录组关联研究(Transcriptome-Wide Association Study, TWAS)主要依赖顺式表达数量性状位点(cis-expression Quantitative Trait Loci, cis-eQTLs,通常指基因±1 Mb内的变异)构建预测模型(如PrediXcan),而忽略反式eQTLs(trans-eQTLs),即远端调控变异。cis效应仅能解释少部分表达遗传力,且多数SCZ风险变异不与已知eQTL共定位。已有证据表明SCZ风险基因在脑区共表达网络中富集,暗示协调的转录程序(含trans调控)参与疾病发生。因此,研究人员开展本研究以探究整合共表达网络信息的cis与trans联合模型能否提升基因表达预测及SCZ易感基因发现能力。该论文发表于《Nature Genetics》。
二、主要关键技术方法概述
研究人员使用Lieber Institute for Brain Development(LIBD)六个脑区(背外侧前额叶皮层DLPFC、海马HP、尾状核CN、杏仁核、背前扣带皮层dACC、亚前扣带皮层sACC)的RNA-seq与基因型数据作为训练集,以GTEx(Genotype-Tissue Expression project)和CommonMind Consortium(CMC)为独立验证集。开发两种trans预测框架:(1) INGENE——用目标基因共表达伙伴基因的cis预测表达作为自变量弹性网(elastic-net)回归预测目标基因;(2) MODULE——筛选与基因共表达模块特征基因(module eigengene,模块第一主成分PC1)显著关联的SNP作为共eQTL(co-eQTL),排除目标基因±1 Mb内cis-SNP后建弹性网模型。对照为cis-only模型CIS(标准弹性网)和EpiXcan(融入Roadmap表观印记先验)。跨数据集(LIBD/GTEx/CMC)交叉验证保留可重复trans信号。整合最佳cis与trans预测得分后用最大似然估计检验增量解释力。对PGC Wave 3(PGC3,62个队列共102,613人)进行共TWAS(coTWAS),经条件分析控制连锁不平衡与多重检验(FDR < 0.01)获得SCZ关联基因。
三、研究结果
INGENE和MODULE增加跨脑区可预测基因数目
在LIBD中训练显示,cis模型CIS预测26,285基因、EpiXcan预测25,702基因,INGENE预测18,403基因、MODULE预测16,721基因;二者重叠度高(88%–96%),且与cis模型互补,新增大量独有预测基因。跨模型比较发现MODULE调整后的R2显著优于其他模型。外部GTEx测试集中,INGENE预测5,429–10,749基因、MODULE预测5,084–10,718基因,较CIS最高扩大约1.8倍;虽cis模型单基因解释方差更高,但trans模型大幅提升可预测基因覆盖面,且在独立队列CMC中共享基因比例更高(77%–88%)。与已发表cis-trans框架(BGW-TWAS、MOSTWAS)比较,本模型预测基因数更多且trans预测中位精度相当或更高。
共eQTL(co-eQTL)的功能遗传学特征
MODULE检出的trans-SNP中25%–44%与GTEx多组织cis-eQTL重叠,对应5,821–19,276个cis调控eGene,功能富集ATP依赖活性、钙粘蛋白结合等;转录因子富集分析发现GATAD2A、RERE、IRF3、SP4等SCZ曾报道风险基因。表明部分trans信号源于调控共表达伙伴的cis作用变异,反映协调转录控制。
预测模型中SCZ风险变异关联基因的富集
MODULE权重与PGC3 SCZ GWAS效应量相关系数(r = 0.28–0.42)显著高于cis模型(r = 0.14–0.18, Fisher's z检验 P < 2×10−16);trans预测基因按PGC权重分位显示与PGC3优先基因连通性单调上升,证明trans衍生信号偏好定位于SCZ风险共表达网络。
cis与trans评分整合增强GTEx中基因表达预测
对有cis与trans双成分的基因,加入trans项使调整R2显著提升(最大似然估计α=0.05),合并模型跨区显著预测18,744基因;在CMC独立测试集,合并模型调整R2显著高于任一单独模型(Wilcoxon检验 P < 2.2×10−16),确认cis与trans组分相互独立且互补。
coTWAS在PGC3队列中鉴定性状关联
应用整合模型对PGC3进行coTWAS并条件分析(FDR<0.01),从96,535次检验中鉴定766个独立SCZ关联基因(693个非MHC),其中381个遗传上调、414个下调。留一队列验证获556个可重复基因(经验P<0.05)。功能富集:DLPFC富集AMPA受体簇集及囊泡转运(突触组织),dACC与DLPFC富集抗原加工与MHC通路;细胞类型富集显示兴奋性神经元(尤其exDG样)在上调基因中富集,GABA能中间神经元在DLPFC下调基因中富集。与既往研究比较,125个基因曾有报道,641个(83.7%)为新发现;已知基因多由cis或cis-trans模型捕获,新基因中51%为trans-only预测所得。与SCHEMA、PGC3精细映射/孟德尔随机化基因集存在重叠,21个基因在≥4项独立SCZ研究中被复现(如MAPK3、GATAD2A、INO80E)。
四、讨论与结论总结
研究人员开发了基于人脑共表达网络的trans-eQTL预测框架INGENE与MODULE,并与传统cis模型整合。trans模型大幅增加可遗传预测基因数目,cis-trans联合模型较单一模型提高基因水平预测准确度。应用于PGC3大样本鉴定766个SCZ关联基因,其中641个为TWAS新发现,证实纳入共表达信息的distal调控可拓展疾病基因发现。INGENE捕捉经共表达伙伴介导的cis-trans效应,MODULE捕捉模块水平共享调控方差,二者部分收敛(部分MODULE信号可追溯至伙伴基因cis-eQTL)。MODULE权重与SCZ GWAS效应量相关性更强,提示网络层级调控变异富集疾病易感性。共TWAS信号功能富集指向兴奋性神经元中AMPA受体转运/内吞异常及免疫-内体激活(MHC I类分子相关),与兴奋-抑制失衡模型一致。局限含训练样本量为死后批量组织、未解析细胞类型特异调控、未考虑性别分层及仅限欧裔人群。综上,将基因共表达作为先验整合cis与trans组分的预测框架改善了SCZ等疾病的基因建模,为解析非编码风险变异提供基因水平解释。

生物通微信公众号
微信
新浪微博


生物通 版权所有