人类代谢的全等位基因频谱遗传图谱:基于45万人的跨祖先代谢组全基因组关联研究

时间:2025年10月4日
来源:Nature Genetics

编辑推荐:

本期推荐:为系统解析人类代谢的遗传调控机制,研究人员对~450,000名跨祖先个体进行249种血浆代谢物(NMR平台)的mGWAS研究,鉴定29,824个位点-代谢物关联,发现代谢基因存在广泛多效性,通过机器学习注释>100个效应基因(如SIDT2、APOA1、VEGFA),并揭示稀有与常见变异构成的等位基因系列(如APOA1、SLC13A5),为代谢疾病机制和靶点发现提供新见解。

广告
   X   

人类代谢的遗传调控机制一直是生命科学研究的核心问题。过去,我们对代谢的理解主要基于模式生物的假设验证或罕见病患者的临床观察。近年来,高通量代谢组学技术的发展使得大规模系统性研究成为可能,通过基因组-代谢组关联分析(mGWAS)揭示了遗传变异如何塑造人类的化学和代谢个体性。然而,现有研究仍面临诸多挑战:一是已发现的遗传变异数量有限,通常只有十几个变异与单个分子相关;二是难以区分多效性变异是独立作用于不同分子或通路(水平多效性),还是作为连续下游变化的“根本原因”(垂直多效性);三是难以准确分配效应基因。
为了突破这些局限,由Martijn Zoodsma、Carl Beuchel等领衔的研究团队在《Nature Genetics》发表了最新成果。他们整合了英国生物银行(UK Biobank)中约45万名来自欧洲、非洲和南亚祖先个体的罕见变异(基于全外显子组测序)和常见遗传变异数据,与249种代谢表型(包括小分子和详细脂蛋白特征)进行关联分析。这些代谢表型通过质子核磁共振(1H NMR)光谱技术测定,涵盖了14个脂蛋白亚类及其特征(从超大极低密度脂蛋白(VLDL)到小高密度脂蛋白(HDL)颗粒),以及以摩尔浓度单位量化的氨基酸、酮体等小分子。
研究采用了几项关键技术方法:基于REGENIE的全基因组关联分析(GWAS)和罕见外显子组关联分析(ExWAS),跨祖先荟萃分析整合欧洲(n=434,646)、非洲(n=6,573)和南亚(n=8,796)人群数据;利用SuSiE模型进行精细定位以缩小候选因果变异范围;通过机器学习框架(受ProGeM启发)整合功能基因组资源和通路信息注释效应基因;采用孟德尔随机化(MR)和共定位分析推断代谢物与心血管疾病的因果关联;使用罕见变异负荷测试和基因聚集分析揭示稀有编码变异的影响。
常见遗传变异与循环代谢物的关联
研究人员在跨祖先荟萃分析中鉴定到29,824个区域哨兵变异-代谢物关联,对应753个非重叠基因组区域。近一半区域(n=359, 47%)与超过10种NMR测量值相关,显示出显著的多效性。大HDL颗粒的特征(如颗粒大小和脂质组成)与最多区域相关(中位数166个),显著扩展了先前研究。基因富集分析显示,具有明确代谢功能的基因在不同显著性区间均显著富集,表明大规模代谢物研究仍能产生生物学合理发现。
跨祖先异质性分析显示,仅少数位点(n=342; 1.14%)存在显著异质性,效应估计值在祖先间高度一致。所有在非洲和南亚祖先个体中发现的哨兵变异均在欧洲祖先个体中复制,仅一个位点(CD36内的错义变异rs3211938)为非洲特有,该变异与较低血浆omega-3脂肪酸和15种其他NMR测量值相关,与CD36作为脂肪酸转位酶的功能一致。
代谢基因位点的性别差异效应
尽管男女参与者效应大小高度相关(中位数r=0.98),研究人员仍鉴定到360个推定的性别差异位点,涉及239种NMR测量值,代表1,800个异质性关联。这些位点中65.3%(n=1,175)无法用混杂因素解释,且效应方向在性别间一致,表明显著性别交互作用并不反映性别不一致效应。
通过多祖先精细定位优化区域关联
采用两阶段策略,研究首先识别出3,007个统计独立的代谢物数量性状位点(mQTL),代表43,322个可信集-代谢物测量对。每个NMR性状的领先精细定位mQTL平均解释6.9%(范围0.57-13.42%)的血浆代谢物浓度方差。其次,利用非洲和南亚个体中不同的连锁不平衡(LD)结构进一步优化了3,386个可信集,使高置信度变异数量增加,平均可信集大小从9个变异减少到4个。跨祖先精细定位改善了仅在欧洲祖先个体中未能解析的位点分辨率,但整体改进有限。
已确立“脂质”位点的生物学重新分类
为评估基于1H NMR光谱的脂蛋白分析相对于标准临床标志物的价值,研究对160万人中常见临床标志物(LDL胆固醇、HDL胆固醇、总胆固醇和甘油三酯)报告的1,657个遗传变异进行了NMR代谢组关联谱分类。约25%的相关变异其对应NMR测量值位于最强关联的前10%,22.5%的遗传变异与精细化脂蛋白测量值的关联显著强于匹配的NMR测量值,这一现象在非HDL和LDL胆固醇浓度中最明显。例如,PNPLA3位点(以rs3747207为标签,与LDL胆固醇关联)在本研究中未显示与LDL胆固醇关联,但与LDL颗粒大小和超大VLDL颗粒的多个特征显著相关,支持PNPLA3在大型VLDL颗粒分泌中的作用。
机器学习引导的效应基因分配
通过训练机器学习模型整合功能基因组资源和通路信息,研究以至少中等置信度(候选基因评分≥1.5,范围0-3)成功分配了近四分之三欧洲祖先精细定位mQTL的效应基因(73.6%;n=2,213),其中约28.2%为高置信度分配(评分≥2;n=848)。例如,将脂肪酸延伸酶基因ELOVL6优先列为16种不同VLDL/HDL特征的效应基因(以rs3813829标签)。此外,还注释了代谢上游基因,如7q25.3位点,将cytohesin-1(CYTH1)作为11种独立遗传变异的推定效应基因,CYTH1此前与2型糖尿病相关,通过激活ADP-核糖基化因子(ARF)1、ARF5和ARF6调控脂质囊泡运输、膜脂质组成和修饰,显示与脂蛋白代谢的间接关联。
机器学习引导的效应基因预测与基于生物学合理性手动策划的基因(283个位点中的191个)或与未用于训练算法的蛋白质数量性状位点(pQTL)共定位的基因(143个中的81个)存在显著重叠。尽管多数一致,24个高置信度分配与外部来源强烈不符,例如将PEPD(评分2.42)而非CEBPA优先列为rs62102718的效应基因。PEPD编码肽酶D,在小鼠敲除模型中促进脂肪组织纤维化导致胰岛素抵抗,这为变异对多种脂蛋白特征的多效性效应提供了合理解释。
效应基因的组织分布
分配的效应基因在不同组织中显著富集,反映已知和较少确立的器官贡献。肝脏、脂肪组织、肾上腺和女性乳腺组织(可能反映其高脂肪组织含量)的特征基因在NMR捕获的代谢测量值中显著富集。包括肝脏中所有氨基酸的显著富集(例如苯丙氨酸:比值比(OR)14.8, P<1.3×10−8;组氨酸:OR 7.9, P<2.9×10−11),以及骨骼肌在丙氨酸代谢中的富集(OR 3.82; P<7.9×10−9)。使用最近基因而非注释效应基因时观察到类似富集。
代谢与系统多效性
多效性广泛存在但理解不足。研究开发了一个框架表征四种不同的代谢多效性模式:通路多效性(n=218)、比例多效性(n=662)、不成比例多效性(n=720)和非特异性多效性(n=720)。约一半多效性mQTL显示垂直多效性证据:局限于通路内或作为与“先导”NMR测量值相关的函数。比例多效性的典型例子是以rs624698标签的mQTL,将ANGPTL3优先列为效应基因。ANGPTL3编码的血管生成素样3抑制脂蛋白脂酶和内皮脂酶活性,导致甘油三酯、HDL胆固醇和磷脂浓度增加,与HDL颗粒特征最强烈关联,反映脂蛋白代谢的下游效应。
另一半多效性mQTL显示水平多效性证据:不成比例多效性或非特异性多效性。例如,染色体1上的小缺失(chr1:92982441:CA>C)与高度相关的NMR测量值簇(包括中密度脂蛋白(IDL)、LDL和VLDL颗粒特征)关联,但关联强度与先导NMR测量值(中型VLDL颗粒中酯化胆固醇浓度)无相关性。将EVI5优先列为最可能效应基因,其基因产物ecotropic viral integration site 5与(脂蛋白)代谢无明显联系。非特异性多效性的例子是APOB错义变异rs676210(p.Pro2739Leu),与126种NMR测量值关联,涵盖整个脂蛋白密度范围以及肌酐和糖蛋白乙酰浓度。
分子多效性模式仅部分转化为表型多效性。“比例多效性”变异在GWAS Catalog中报告≥5个非代谢组性状类别的变异中富集两倍(OR 2.11; P<2.0×10−14),“非特异性多效性”变异富集程度较低(OR 1.52; P<1.1×10−5)。相反,多效性GWAS Catalog变异在“特异性”mQTL中显著缺失(OR 0.42; P<1.6×10−21)。“比例”和“非特异性”多效性mQTL的系统机制进一步由相关性状类别(如“代谢疾病”、“脂肪肝疾病”和“动脉疾病”)的20倍以上显著富集所指示。
塑造代谢的常见和稀有遗传变异的汇聚
研究识别到209个基因中的稀有变异(MAF≤0.05%)与249种NMR测量值中的一种或多种显著相关(P<1.1×10−8),包括超稀有基因负荷分析(3,709个显著关联)和稀有外显子变异分析(4,131个显著关联)。效应大小显著大于更常见变异效应。例如,携带SLC13A5中稀有预测功能丧失(LoF)变异的参与者每个可能损伤等位基因拷贝的血浆柠檬酸盐浓度升高超过1.4个标准差单位(β=1.41; P<2.6×10−20)。
研究观察到显著多效性,包括47个基因与20种或更多NMR测量值相关。许多基因编码知名酶和转运蛋白,近一半(n=23/51基因)涉及(外周)胆固醇代谢。一些效应大(MAF<0.02%且β>0.6 s.d.单位)的稀有多效性变异指向较少确立的代谢调节因子,包括SIDT2(chr11:117186662:C>T, n=124关联NMR性状)、JAK2(chr9:5073770:G>T (p.Val617Phe), n=73关联NMR性状)或CEP164(chr11:117356670:C>G, n=49关联NMR性状)。实验研究已提示SIDT2(SID1跨膜家族成员2)在肝脏脂质代谢和载脂蛋白A1(ApoA1)分泌中的作用,ApoA1是HDL颗粒的主要蛋白质成分,构成关联NMR测量值的大多数。JAK2变异 predisposes to somatic mutations inducing clonal hematopoiesis of indeterminate potential (CHIP),但其他研究将Janus kinase 2 (JAK2)与肝脏、脂肪细胞或巨噬细胞中的代谢相关联。与HDL颗粒参数的强负相关最符合JAK2在促进与ATP结合盒转运体A1(ABCA1)相互作用和随后HDL介导的细胞脂质清除中的作用,包括动脉粥样硬化性巨噬细胞。
稀有变异和常见变异发现存在强重叠,85.4%的稀有变异(n=3,528)和75.5%的基因负荷(n=2,802)关联与最近统计独立领先可信集变异距离<100 kb。相反,大多数常见变异发现(92.3%)不在匹配稀有变异/负荷证据的500 kb范围内。值得注意的是,12.1%的基因负荷结果与相应NMR测量值的下一个常见可信集变异距离超过1 Mb,与最近观察一致,即两种方法优先部分不同的基因。
在116个基因(55.5%)中,稀有变异和/或负荷证据与附近常见可信集变异(≤200 kb)的一种或多种关联NMR测量值的效应基因预测重叠,为等位基因系列提供独立支持。例如,在编码钠依赖性柠檬酸盐共转运蛋白的SLC13A5处识别出一个由七个稀有LoF、一个功能获得和四个常见变异组成的等位基因系列,用于血清柠檬酸盐水平。另一个在ANKH的等位基因系列包括四个常见变异(rs185448606, MAF 1.3%; rs17250977, MAF 4.0%; rs826351, MAF 44.3%; rs2921604, MAF 45.9%)和一个稀有错义变异chr5:14745916:T>C(MAF 0.0069%),也与较低血清柠檬酸盐浓度相关(β=−2.18 s.d.单位, P<5.2×10−11)。ANKH编码一种多次跨膜转运蛋白,最近显示转运柠檬酸盐,在骨骼健康中起重要作用。
等位基因系列内的表型异质性
研究观察到17个与>10种NMR测量值相关的基因中遗传变异具有差异代谢后果的证据。最突出的例子包括七个变异(五个稀有;两个常见)和APOA1中稀有预测LoF变异的累积负荷。它们差异化地与87种NMR测量值中的一种或多种关联,最强烈地与HDL颗粒的多样特征相关,其基因产物Apolipoprotein A1 (ApoA1)是主要成分。这包括编码在 exon 4 中的四个稀有错义变异(MAF≤0.03%),部分差异化地与HDL颗粒的数量、大小和胆固醇含量关联。仅其中一个(p.Leu158Pro)主要与血清ApoA1浓度和HDL颗粒数量关联,模拟APOA1内高置信度预测LoF变异的累积负荷,提示可能存在功能失调的蛋白质,缺乏与卵磷脂胆固醇酰基转移酶的相互作用以促进胆固醇摄取。相反,p.Lys131del和p.Arg201Ser似乎更容易导致胆固醇含量从大HDL颗粒向小HDL颗粒转移,这一模式与p.Asp113Glu相反。一致地,在早期p.Lys131del病例报告中观察到淀粉样蛋白形成,其中HDL胆固醇或ApoA1浓度降低,错误折叠的ApoA1蛋白聚集可能在后期的生命中导致器官损伤。由于p.Asp113Glu和p.Arg201Ser已被识别引起淀粉样变性,不能排除每个变异映射到ApoA1的不同部分,随后对功能和/或稳定性产生不同后果的可能性。虽然血清ApoA1浓度的结果在使用替代测定时 largely confirmed,但观察到一些差异,可能暗示在存在稀有错义变异时,从1H NMR光谱量化ApoA1浓度的程序可能需要重新校准。
代谢基因中稀有变异的表型后果
研究观察到先前与孟德尔疾病相关的基因(“OMIM基因”)在基因负荷和稀有外显子变异分析中与NMR测量值关联的基因中富集超过3倍(OR 3.30, P<6.5×10−17),与先前mGWAS一致。在106个基因中的15个中,发现显著关联疾病风险的证据, largely replicating 相应罕见疾病的体征和症状。当更广泛地测试代谢基因中的稀有变异负荷是否与疾病易感性相关时,观察到内分泌和代谢疾病(如2型糖尿病和不同脂血症)易感基因的显著富集,但在其他疾病类别中未富集。
超越LDL胆固醇的动脉粥样硬化性心血管疾病风险缓解
高LDL胆固醇的遗传易感性与动脉粥样硬化性心血管疾病(ACVD)风险增加强烈相关(“水平效应”),模拟强效药物靶点(如PCSK9)的遗传变异显示对LDL胆固醇和ACVD的共享效应(“位点效应”)的强证据。为识别解决降低LDL胆固醇未解决的剩余风险的潜在途径,研究系统整合了25种CVD表型的结果数据与NMR表型。
使用多效性策划的遗传工具在孟德尔随机化中识别到1,146个“水平效应”,涉及218种NMR测量值与22种CVD表型中的一种或多种(错误发现率(FDR)<5%)。独立地,观察到5,527个“位点效应”的证据,提示87个mQTL与247种NMR测量值和17种CVD表型之间的共享遗传架构(后验概率(PP)>80%)。对于46种NMR-CVD组合,发现水平和位点效应的汇聚证据,包括23种在本研究中未与LDL代谢参数相关的组合,为 addressing 剩余心血管风险提供潜在替代方案。
例如,观察到 robust evidence 表明, among other measures related to HDL size and composition, 遗传易导致 larger HDL particle size 与冠状动脉疾病(CAD)风险降低35%相关(OR 0.65; 95% CI 0.50–0.83; Padj<0.007),以及在VEGFA位点(rs4711750, PP 99%)共享和方向一致的遗传信号证据。该位点已被 implicating in CAD risk,结果现在提示调节CAD风险的一个可能途径可能是通过HDL颗粒大小或HDL胆固醇未捕获的大HDL颗粒特征。VEGFA编码的血管内皮生长因子A primarily known for its role in angiogenesis,但被描述为通过激活清道夫受体BI(SR-BI)在逆向胆固醇转运过程中调节酯化胆固醇从HDL而非LDL颗粒的跨内皮运输的调节因子。VEGFA抑制是抑制恶性肿瘤血管化的主要药物靶点,靶向VEGF信号传导的药物以不良心血管效应闻名,提示VEGFA激活而非抑制可能是降低CAD风险所必需。观察结果 contribute to a growing body of evidence 表明,更 tailored approaches而非增加HDL胆固醇含量可能潜在地带来心血管益处, given 大多数增加HDL胆固醇的药物的试验结果令人沮丧。然而, note that HDL颗粒大小可能仍然只是一个“可测量”的替代指标,而非真正潜在机制。例如,通过功能失调的SR-BI抑制逆向胆固醇转运增加了HDL颗粒大小和CAD风险。
非脂蛋白测量值的疾病范围孟德尔随机化筛选
在建立多效性类别后,研究最终旨在演示其在疾病范围孟德尔随机化筛选中非脂质NMR测量值的应用。观察到遗传预测的血浆糖蛋白乙酰浓度对2型糖尿病风险的风险增加效应的汇聚证据(每增加1个标准差单位OR 1.67; P<3.9×10−7),在排除具有表型多效性证据的变异后持续存在(OR 1.69; P<9.1×10−5)。这与HNF4A内稀有LoF变异chr20:44413714:C>T(MAF 0.02%)对血浆糖蛋白乙酰浓度的效应(β=0.60; P<8.3×10−15)以及超稀有LoF HNF4A变异对2型糖尿病风险的累积效应(OR 2.68; P=6.5×10−10)一致。然而, note that 血浆糖蛋白乙酰浓度代理复杂的慢性炎症状态,需要进一步后续分析以建立与2型糖尿病的机制联系。
讨论
循环代谢物的遗传基础提供了对人类代谢调控复杂性及其随后对健康和疾病影响的见解。通过整合45万名不同祖先个体的常见和稀有遗传变异与循环代谢物浓度,研究提供了一个跨越等位基因频率谱的循环代谢组数据驱动图谱。该图谱识别了先前未认识的代谢调节因子,具有潜在健康意义。
通过结合机器学习引导的常见变异-基因注释与稀有外显子变异,研究在>100个位点提供了高置信度效应基因分配,包括一些在(脂蛋白)代谢中作用较少确立的基因,如SIDT2,呈现了在人类中进行功能后续研究的有力候选者。与本研究类似但覆盖更广血浆代谢组的大规模研究可能揭示更多具有未定义代谢作用的基因,补充实验模型中的假设驱动研究。
经过二十多年的GWAS, clearly that 遗传变异的多效性无处不在。除了“垂直”和“水平”多效性的通用概念或简单计数测量之外,很少能进行区分。研究通过观察与 dozens of NMR测量值关联但符合效应沿相关

生物通微信公众号
微信
新浪微博


生物通 版权所有