综述:被忽视的影响:表观遗传时钟在多样化人群中应用的代表性不足问题

时间:2025年10月5日
来源:Clinical Epigenetics

编辑推荐:

本综述深入探讨了表观遗传时钟(Epigenetic clocks)在跨人群应用中的核心挑战。文章系统回顾了DNA甲基化(DNAm)作为生物年龄(Biological ageing)标志物的潜力,并尖锐指出当前研究因欧洲血统个体占绝大多数而存在严重的“代表性缺失”(Missing diversity)问题。作者警示,若忽视遗传变异(如meQTLs)、环境暴露及技术因素(如芯片类型、标准化方法)造成的群体间DNAm差异,将导致时钟预测不准,加剧健康不平等,阻碍其临床转化(如风险预测、临床试验终点)。

广告
   X   

背景
DNA甲基化(DNAm)是一种不改变DNA序列但可随细胞分裂遗传的表观遗传修饰。它涉及在胞嘧啶-鸟嘌呤二核苷酸(CpG位点)上添加甲基,人类基因组中约有2800万个CpG位点,富集于CpG岛。DNAm模式具有高度组织特异性,在哺乳动物发育和细胞谱系特化中起关键作用,并与多种疾病易感性相关。其机制通常为启动子区CpG岛的DNAm与基因表达抑制相关,但有时(如基因体内)也可能正相关。此外,DNAm还能改变基因组的三维结构。
尽管DNAm模式在发育过程中确立,但部分模式并非固定不变,它们会随年龄随机变化或受环境暴露影响。因此,全血DNAm的变化与多种慢性疾病、衰老和死亡率相关联,这使得DNAm成为一种有潜力整合遗传和环境因素对健康影响的独特分子标志物。
然而,在探讨其应用前景前,必须考虑表观遗传研究的现状。首要问题是普遍存在的系统性“代表性缺失”,即科学研究的西方霸权导致参考基因组和基因组数据主要代表欧洲血统个体。表观遗传研究同样面临此问题,大多数表观基因组关联研究(EWAS)参与者和主要表观遗传时钟的训练人群都是欧洲血统。表观遗传时钟利用全基因组CpG位点的DNAm来预测年龄或衰老过程,其预测的表观遗传年龄加速与死亡率和多种慢性疾病风险相关,有改善临床风险预测的潜力。由于在欧裔人群中训练的多基因风险评分(PRS)应用于非欧裔人群时准确性可能下降,因此评估表观遗传时钟是否存在类似问题至关重要。
123代表上标数字,例如引用编号,在原始回答中已按要求去除,此处仅作演示,实际回答中不会出现。
主文
第一代和第二代表观遗传时钟
个体的 chronological age( chronological age)并不能完全捕捉衰老过程的复杂性,因此需要比实际年龄更能预测年龄相关结局的生物衰老标志物。早期的表观遗传研究发现与衰老相关的DNAm模式改变,并由此催生了预测 chronological age 的“第一代时钟”,例如Horvath的353-CpG位点泛组织时钟和Hannum的77-CpG位点血液时钟。这些时钟在包括欧裔、非裔和西班牙裔的多种人群中均与年龄表现出良好的相关性。它们可用来估算表观遗传年龄加速,即个体表观遗传年龄与实际年龄的差异,该指标与全因死亡率相关。
第一代时钟的局限性在于其年龄加速的估计基于 chronological age 这一不完美的衰老度量。这促使了“第二代表观遗传时钟”的发展,它们被校准到疾病和死亡率等终点。DNAm PhenoAge时钟通过血液生物标志物水平量化衰老,相比第一代时钟,其与死亡率和年龄相关疾病的关联性更强。GrimAge时钟则更进一步,它基于DNAm对八个衰老生物标志物(如吸烟包年数和多种血浆蛋白)的替代指标进行估算,使用了1013个CpG位点,在预测年龄相关状况方面表现优异。其更新版本还考虑了HbA1c和C反应蛋白,与死亡率的关联更强。
DunedinPACE(Dunedin Pace of Ageing measured from the Epigenome)则代表了“第三代时钟”的不同思路。它利用但尼丁纵向研究中26、32、38和45岁时生物标志物变化的复合评分(作为器官系统衰退的代理指标)进行训练。其单时间点DNAm替代指标在独立队列中与握力、器官衰退等年龄表型相关。
这些新一代时钟似乎具备了“生物衰老”标志物的特征。但需要注意的是,衡量“生物衰老”并无金标准,因此缺乏验证这些时钟的绝对参考点,这对其在多样化人群中的应用具有重要影响。
表观遗传时钟在不同人群中的功能
基于第一代时钟的估计,一些研究报告了不同人群间可能存在不同的生物衰老速率。表观遗传时钟已在亚洲、非洲、南美、中美洲及原住民等众多人群中得到应用。尽管这些研究大多验证了时钟的功能,但这并不能保证其在多民族背景下总能产生准确结果。
遗传变异可通过多种机制影响DNAm:破坏CpG位点的单核苷酸多态性(SNP)可阻止DNAm;位于DNAm阵列CpG位点探针内的SNP可通过影响杂交效率改变测得的DNAm水平;而远离CpG位点或探针的SNP,即甲基化数量性状位点(meQTL),也能影响DNAm。表观遗传年龄加速的遗传力估计在0.10至0.37之间。在未来的研究中,应考虑遗传和表观遗传对表观遗传衰老的共同贡献,以促进对时钟估计值更可靠的解读。
在训练人群中不常见的遗传变异可能导致时钟估计出现虚假偏移,进而被误解为真实的生物年龄差异(例如,PhenoAge时钟包含的某些CpG位点可能受此影响)。有研究证实,从时钟计算中排除顺式meQTL的CpG位点可提高估计准确性。但对于未包含在基因组变异数据库中的群体,或无法获得全基因组SNP数据的研究而言,此类位点的存在可能是个问题。
虽然DNAm受遗传和环境因素共同影响,但各自的确切贡献尚缺乏研究。研究表明,在常染色体CpG位点,大部分变异可归因于环境影响而非遗传,但每个位点的贡献因基因组位置而异。值得注意的是,即使在无相关环境暴露的情况下,某些已知受环境影响的CpG位点(如与吸烟暴露强烈相关的AHRR基因中的cg05575921)在同卵双胞胎中的相关性也高于异卵双胞胎,这表明遗传因素在无暴露时也贡献了这些位点的变异性。
总而言之,人群间的DNAm差异受多种环境和遗传因素驱动,包括环境暴露差异、健康社会决定因素(如社会经济地位)的差异、破坏CpG位点的SNP、阵列探针下的SNP以及等位基因频率分化的meQTL。由于上述因素在祖先群体间可能存在显著差异,因此难以厘清人群间表观遗传时钟估计值的差异。其他复杂因素还包括标准化方案选择引入的偏移、所用阵列类型不同导致的偏移,以及如何测量年龄加速和缺失探针的“插补”策略。研究人员在多样化背景下应用表观遗传时钟时,应意识到所有这些因素。
在更多样化的人群中应用和验证表观遗传时钟对于确认其作为衰老生物标志物至关重要。多项研究比较了混合人群中的表观遗传衰老。总体而言,时钟在测试群体中对于死亡率等结局的关联性似乎是稳健的。一个常见的观察是,使用第二代表观遗传时钟时,美国黑人似乎比美国白人表现出加速衰老,即使在排除了教育机会、贫困状况等社会劣势因素后依然如此。值得注意的是,这种差异仅见于第二代时钟;基于第一代时钟的年龄加速估计通常显示美国黑人的年龄估计低于美国人。我们建议在理解任何观察到的差异的真正驱动因素之前,应谨慎解读人群间表观遗传时钟估计值水平或表观遗传年龄加速的差异。
underrepresented populations应用表观遗传时钟的进一步考量
有研究建议在人群水平解释表观遗传时钟,认为个体表观遗传年龄在人群中的相对排名对技术变异源(如标准化方案)更具鲁棒性。这引发了关于在个体水平应用表观遗传时钟的重要问题,即时钟估计值是否能在个体层面进行解释。如前所述,年龄加速可通过计算与 chronological age 的绝对差或将预测年龄对 chronological age 回归后的残差来估计。在护理点场景中,使用绝对差估计年龄加速更为可行(因为计算残差需要许多个体的数据来生成平均值),但这正是偏移(由上述技术因素引起)可能成为不平等主要来源的地方。我们认为,观察到边缘化群体个体表观遗传年龄加速,可合理归因于该群体成员所经历的不平等。
为了在个体层面进行解释,表观遗传时钟需要更好的校准,并对潜在混杂因素(包括技术变异或SNP)更具鲁棒性。不需要校准到现实世界变量(如年龄)的独立时钟,如DunedinPACE,可能为解决此问题提供方案,并且基于主成分训练的时钟似乎能提供更稳健的估计。在更多样化、更具代表性的队列中训练时钟也将改善校准。
其他考量包括数据主权、开源表观遗传时钟的重要性以及时钟输出的解释。数据主权对于维护参与者对研究信息的控制权尤为重要,对 underrepresented populations(如原住民)至关重要,因为它提供了在研究中获得更大自主权、对研究成果更大控制的途径。过去的 research harm 实例(如Havasupai部落组织样本的非同意使用和“战士基因”事件)突显了这一点,这些教训与在 underrepresented populations中进行表观遗传时钟研究高度相关。实现数据主权的实用建议包括保持表观遗传时钟开源,并赋能 underrepresented populations在内部进行表观遗传时钟研究。大多数表观遗传时钟是开源的,必须保持这种方式。对于非开源时钟,可能需要将数据提交给私人平台,这可能会引起边缘化社区的怀疑,并阻碍其参与表观遗传研究。
要将表观遗传时钟用作临床试验中生物衰老的终点标志物,必须确定表观遗传衰老可通过干预措施改变。证明这一点将对如何框架化不同种族或族裔群体间感知到的表观遗传年龄差异产生影响。一篇综述发现,表观遗传时钟研究可能在纳入种族或族裔时,未能充分讨论这些概念是其他社会文化健康决定因素的替代指标。种族和族裔是社会建构,并不指代内在的生物类别。在背景下,报告一个种族群体比另一个种族群体具有更高的表观遗传年龄,同时忽视更广泛的社会健康决定因素,有可能将种族框架化为“生物获得性的”。尽管某些少数群体经历的健康不平等可预见地导致“加速生物衰老”的信号,但正如我们已经讨论过的,还有许多其他因素可能混淆这一观察结果。我们必须理解表观遗传时钟估计值的驱动因素,并确定表观遗传衰老并非固定不变,以最小化在解释人群间表观遗传年龄差异时可能造成的潜在危害。
结论
DNAm的功能重要性和动态性表明其作为健康和疾病标志物的巨大潜力。表观遗传时钟作为改善多种与衰老相关的慢性疾病风险预测和风险监测的工具显示出巨大前景。正如所讨论的,表观遗传时钟已在多个不同人群中应用,并且似乎能在不同群体中很好地捕捉年龄相关结局。然而,对驱动人群间DNAm变异的因素缺乏了解,以及这可能如何影响表观遗传时钟,是一个主要空白。在尝试临床转化基于DNAm的风险工具之前,必须考虑驱动人群间DNAm变异的因素。在多样化人群中临床实施受遗传影响的表观遗传时钟可能导致不准确的估计,并可能加剧某些少数群体经历的健康差距。为避免这种情况,增加少数群体在表观遗传研究中和表观遗传时钟训练样本中的代表性至关重要。我们最后提出三项建议以提高表观遗传时钟研究对 underrepresented populations的公平性:(1) 改进对多样化研究中可能驱动人群间差异的因素的报告;(2) 改进对可能引入非训练人群虚假偏移的遗传变异CpG位点的评估;(3) 通过联盟或在表观遗传时钟训练和验证人群中纳入更多族裔来扩大表观遗传研究的多样性。

生物通微信公众号
微信
新浪微博


生物通 版权所有