暴露组-表型组关联图谱:绘制环境暴露对健康与疾病风险影响的全景图

时间:2026年3月19日
来源:Nature Medicine

编辑推荐:

为解决环境因素对健康影响的证据零散、因果推断困难的问题,研究人员开展了暴露组-表型组关联研究(P-ExWAS)。该研究系统分析了美国国家健康与营养调查(NHANES)中619种暴露与305种表型的关联,发现血脂、持久性污染物和维生素E是表型健康特征的关键贡献者。研究构建了关联图谱,揭示了暴露的互联结构,其多暴露聚合模型解释的表型变异与全基因组多基因评分相当,为将环境因素整合入精准医学提供了数据基础。

广告
   X   

我们的健康,如同一场由基因与环境共同编织的命运交响曲。长久以来,遗传学在揭示疾病风险方面的成就引人瞩目,但另一个同样关键的角色——环境暴露——却长期处于聚光灯的阴影之中。从每日呼吸的空气、摄入的食物,到接触的化学物质和坚持的生活习惯,这些非遗传性的“暴露组”无疑塑造了我们的临床表型,从体重、血糖到心肺功能。然而,关于暴露如何具体影响健康,现有的证据却支离破碎,如同散落一地的拼图。数以百万计的研究聚焦于少数候选暴露因子,其结果常相互矛盾,难以复制,甚至可能存在大量假阳性。这就引出了一个核心难题:在纷繁复杂的环境因素迷宫中,究竟哪些暴露是真正重要的?它们的影响有多大?我们能否像理解基因那样,系统地绘制出环境暴露与健康表型之间的全景关联图谱?
为了回答这些问题,一项雄心勃勃的研究在《自然·医学》(Nature Medicine)杂志上登场。研究团队进行了一项大规模的“暴露组-表型组关联研究”,旨在为“暴露组”描绘一幅清晰、可复制的地图。他们假设,暴露组具有一种可复制的关联结构,其聚合因素能够解释临床上具有相关性的表型变异和疾病风险。这项研究的目标,正是为将暴露组整合进精准医学奠定数据驱动的基础。
为了开展这项系统性研究,研究人员主要运用了以下关键技术方法:研究数据来源于美国国家健康与营养调查(NHANES)在1999年至2018年间进行的十轮横断面调查。他们开发了一套分析流程,对数据进行编目、转换和关联分析。核心方法是“表型-暴露组关联研究”,即使用调查加权回归模型,将每个经过标准化的表型与每个暴露指标相关联,同时调整了人口统计学和社会经济因素等多种协变量场景。统计分析采用了严格的Bonferroni校正和错误发现率(FDR)控制。此外,研究还构建了“暴露组关联地球”来可视化暴露之间的密集相关网络,并开发了R软件包“nhanespewas”以实现可重复的分析流程。
暴露组在全表型范围内的关联
研究发现,在所有表型-暴露关联中,有5.6%的关联通过了严格的Bonferroni显著性阈值。这些可复制且稳定的信号最集中于心肺代谢和人体测量学表型。具体而言,客观的营养生物标志物和亲脂性污染物与身体质量指数(BMI)、糖化血红蛋白和血脂谱密切相关。其中,作为心血管风险重要标志物的甘油三酯,是与多领域暴露关联最强的表型,反式脂肪酸、持久性污染物和维生素E同系物是其主要贡献者。
表型-暴露关联在队列间的可复制性
研究评估了关联在不同调查周期中的“复制率”。在Bonferroni显著的关联中,有41%的关联能在超过一个调查周期中达到名义显著性。相比之下,未达到FDR或Bonferroni显著性的关联,其复制率仅为0.8%。这表明,通过严格多重检验校正筛选出的关联具有更高的跨队列稳定性。
暴露组解释的方差
研究评估了单个暴露以及多个暴露聚合模型所能解释的表型变异(R2)。人口统计学因素解释了很大范围的表型变异。相比之下,单个暴露贡献的R2中位数仅为0.14%。然而,当同时考虑多个暴露因素时,其解释力显著增强。例如,对于甘油三酯,20个暴露因子共同解释了高达43%的方差,这是所有表型中最高的。这揭示了聚合“多暴露组”模型在解释表型变异方面的重要潜力。
贯穿暴露组和表型组的关联图谱
研究构建了一个全面的关联矩阵图谱,展示了305个表型与619个暴露之间的线性关联。关联效应大小表示暴露每增加1个标准差(s.d.)时,表型的标准化变化。该图谱直观地呈现了暴露与表型之间复杂而广泛的联系网络。
暴露组的密集相关网络
暴露之间并非孤立存在,而是形成了一个密集的相关网络。研究计算了所有暴露之间的偏相关系数,发现中位数绝对相关系数为0.05,而通过Bonferroni校正的显著相关中位数则达到0.19。通过“暴露组关联地球”可视化可以看到,与特定表型(如BMI和糖化血红蛋白)相关的暴露之间,其相关性比随机选择的暴露子集更强,这说明了暴露之间复杂的共现和交互结构。
人口统计学调整对关联效应大小的影响
研究发现,人口统计学因素的调整会显著影响关联的效应大小和方向。例如,在血镉与BMI的关联中,未调整模型显示正相关,但在调整了年龄、性别、种族、收入和教育等主要协变量后,关联方向发生了逆转。这强调了在暴露组研究中,仔细考虑和控制人口统计学混杂因素的重要性。
跨暴露类别关联的一致性
研究比较了不同类型暴露测量的有效性。客观的生物标志物(如血清营养素、尿液烟草代谢物)比自我报告(如膳食回忆)显示出更强、更一致的生物医学关联。例如,膳食生物标志物解释的方差中位数是自我报告对应物的五倍。血液和尿液中的污染物生物标志物(如镉、可替宁)也显示出高度一致的关联模式,证明了不同生物基质中测量的一致性。
暴露组与肺功能关联的一致性
吸烟是导致肺功能下降的明确风险因素。研究证实,烟草特异性生物标志物(如4-(甲基亚硝胺基)-1-(3-吡啶基)-1-丁醇,一种烟草特异性亚硝胺)与一秒用力呼气容积(FEV1)的负相关性,比短半衰期的尼古丁代谢物可替宁更强。这与NNAL具有更长半衰期,能更稳定地反映累积暴露的生物学特性一致,从而更精确地揭示了吸烟与肺功能受损的关联。
暴露组与GWAS的比较
研究将暴露组模型的预测能力与全基因组关联研究(GWAS)的遗传预测能力进行了对比。在29个可比较的表型中,多暴露因子(最多20个)模型所解释的方差中位数为7.9%,与来自约100万个遗传变异的GWAS多基因风险评分所解释的方差中位数(7.9%)相当。具体来说,在55%的表型中,暴露组模型解释了比遗传模型更多的方差。这表明,精心构建的聚合暴露组模型,在解释表型变异方面,可以达到与全基因组遗传数据相当的水平。
综合以上结果,本研究得出了几个具有重要临床和生物医学意义的结论。首先,研究发现稳健的环境信号高度集中在用于临床评估和护理的心肺代谢及肺功能表型上,特别是甘油三酯、血糖标志物和FEV1,是进行数据驱动的环境风险评估的最高价值靶点。其次,研究表明,虽然单个暴露的影响通常有限,但聚合的“多暴露组”模型能够解释与全基因组多基因评分相当程度的表型变异。这意味着,要超越年龄和性别,在精准风险模型中取得有意义的改进,必须整合多因素的环境暴露信息。第三,研究强调了客观生物标志物测量的重要性,其揭示的生物医学关联远比自我报告的历史更可靠、更强大。
在讨论中,作者指出,大多数暴露在表型间显示出广泛、非特异性的关联,并且彼此高度相关,这使得因果归因变得复杂,强调了必须在暴露“混合物”和关联网络的背景下看待高优先级的信号。研究也承认了其局限性,包括横断面设计限制因果推断、仅覆盖了总暴露组的一部分,以及需要更大样本量和更广泛的高分辨率化学分析来刻画复杂的暴露-暴露和基因-环境相互作用。未来,需要结合纵向设计、孟德尔随机化等因果推断方法,以及更精确的“功能暴露组学”测量(如蛋白质组学、代谢组学),来推进从关联发现到因果归因。
总之,这项研究通过系统性绘制暴露组与表型组之间的关联图谱,超越了零散和非客观的关联研究。它不仅定义了将暴露组操作化于生物医学研究所需的特定临床领域和测量模式,还为下一代的纵向暴露组学研究、以及最终在临床诊疗点系统性地整合暴露组信息铺平了道路,是朝着更全面理解环境对健康影响迈出的关键一步。

生物通微信公众号
微信
新浪微博


生物通 版权所有