DNA甲基化纵向分析揭示年龄变异CpG位点及其在衰老异质性中的新见解
摘要
年龄变异DNA甲基化位点反映了衰老过程中个体间表观遗传差异的加剧,为健康异质性和个性化干预提供了见解。本研究利用如皋纵向衰老研究(Rugao Longitudinal Ageing Study, RLAS)中135名相对健康的中国老年人5年内3个时间点的纵向DNA甲基化数据,通过混合效应模型系统表征了DNA甲基化随年龄的动态变化,识别出125,353个年龄相关(即平均甲基化水平随年龄显著变化的位点)和3145个年龄变异CpG位点(即甲基化轨迹随年龄呈现显著个体间变异性的位点)。功能分析显示二者具有不同的富集特征:年龄相关CpG位点富集于神经系统发育、细胞信号传导和疾病相关通路,而年龄变异CpG位点则富集于细胞粘附、突触组织和器官形态发生通路。值得注意的是,两类位点均在神经系统相关通路(如神经系统发育调控和神经元胞体)中显著富集。已建立的表观遗传时钟(如HannumAge)在年龄相关CpG位点中显著富集,但在年龄变异位点中未富集。此外,我们量化了八个主要器官系统的衰老速率,并发现年龄变异CpG位点的纵向甲基化变化速率与器官特异性衰老速率之间存在925个显著关联。通路富集分析揭示了器官系统相关的生物学功能——与特定器官系统相关的CpG位点常富集于与该系统功能相关的通路中,同时还存在跨系统富集的证据。综上,我们的研究结果阐明了甲基化变异在多器官系统衰老中的作用及其在揭示衰老异质性机制和指导精准监测与干预方面的潜力。
1 引言
DNA甲基化是调控基因表达和染色质稳定性等多种基因组功能的关键表观遗传机制,可能干预生理事件。甲基化模式在衰老过程中动态变化,受遗传、环境和随机因素影响。这些变化大致分为年龄相关CpG位点(反映平均甲基化水平的变化)和年龄变异CpG位点(反映个体间变异性的增加)。理解这两种变化对于阐明生物衰老的表观遗传机制及其对健康和疾病的潜在影响至关重要。
先前研究主要关注年龄相关DNA甲基化变化及其与年龄相关疾病(如癌症和其他慢性病)发生发展的关联,并利用它们开发表观遗传时钟,凸显了其作为衰老和健康的生物标志物及治疗靶点的潜力。相比之下,对年龄变异DNA甲基化模式的研究仍然很少。这类位点捕捉了个体间甲基化组随时间的差异,这可能是健康相关表型异质性的基础。然而,大多数现有证据来自样本量小、全基因组覆盖有限的横断面研究,无法充分评估个体间甲基化变异性的年龄相关变化——这种动态最好通过纵向数据来评估。此外,这些年龄变异甲基化变化的生理相关性——特别是它们捕捉多器官系统衰老速率差异的能力——仍然缺乏深入表征。
本研究利用如皋纵向衰老研究中135名相对健康的中国老年人5年内3个时间点的纵向DNA甲基化数据,系统表征了DNA甲基化随衰老的动态变化,识别出3145个年龄变异CpG位点,并探索了其潜在的功能意义。此外,我们检验了这些位点的纵向变化速率与八个主要器官系统衰老速率之间的关联,强调了甲基化变异在塑造衰老异质性中的重要性及其指导个性化干预的潜力。
2 方法
2.1 研究人群
如皋纵向衰老研究是一项基于人群的中国江苏如皋老年人纵向队列。基线调查于2014年11月进行,招募了1788名年龄≥70岁的参与者。随访评估分别于2017年5月(3年随访)和2019年11月(5年随访)进行。本研究纳入了三个时间点(2014、2017和2019年)均无普遍严重慢性疾病(即心血管疾病和癌症)的135名参与者(共405次重复测量)。
2.2 血液样本采集与储存
每位参与者禁食过夜后采集12 mL全血样本。采集后1.5小时内离心并分装。一份样本立即用于临床生化分析,其余样本在-30°C临时储存约1个月后,于干冰上运输至上海复旦大学生命科学学院遗传工程国家重点实验室,-80°C长期储存。
2.3 DNA甲基化测量与预处理
使用MethylationEPIC v1.0 BeadChips(850k, Illumina)测量DNA甲基化。原始数据使用R包minfi和ChAMP处理。进行了严格的质量控制过滤,剩余探针经过Beta Mixture Quantile Normalization(BMIQ)校正探针类型偏差。β值计算为甲基化信号强度与总信号强度的比值,用于下游分析。为考虑血液细胞组成的变异性,使用DNA甲基化年龄计算器在线工具估计了主要白细胞亚型(即CD8+ T细胞、CD4+ T细胞、自然杀伤(NK)细胞、B细胞和单核细胞)的比例。
2.4 宏观表型测量
2.4.1 临床生物标志物
使用标准实验室技术在如皋人民医院生化实验室测量了血液生化(如血脂谱)、全血细胞计数(如血小板计数)和其他循环生物标志物(如同型半胱氨酸)。
2.4.2 心电图
休息5-10分钟后,使用MECG-200心电图机记录标准12导联静息心电图。测量的心电图表型包括心率、PR间期、QRS时限、V1 S波振幅(SV1)、V5 R波振幅(RV5)和校正QT间期(QTc,通过Bazett公式计算)。
2.4.3 身体测量
由训练有素的医生获取体重(kg)、身高(cm)、腰围(cm)和臀围(cm)。体重指数(BMI, kg/m2 )计算为体重除以身高的平方。腰臀比由腰围除以臀围得出。计时起走测试(Timed Up and Go test, TUG, sec)测量参与者从扶手椅站起、行走3米、返回并坐下的时间。步行速度(m/s)计算为以平常步速行走一定距离(4-5米)所需的时间。握力(kg)使用握力计评估,每只手重复三次,保留双手的最大值。
2.4.4 身体功能
衰弱指数根据Fried表型标准评估,包括五个领域:非故意体重减轻、疲惫、低体力活动、虚弱和步速缓慢。每个领域被二分类(0=健康,1=受损),得出0到5的复合评分,较低值表示更好的健康状况。
2.4.5 心理功能
使用修订版长谷川痴呆量表(Revised Hasegawa Dementia Scale, HDS-R)评估认知功能,包含定向力、计算力、即时/延迟记忆和常识等领域。总分范围0-32.5,较高分数表示较好认知。使用中文版15项老年抑郁量表(Geriatric Depression Scale-15, GDS-15)评估抑郁症状,总分范围0-15,较高分数反映更大的抑郁症状负担。
2.5 协变量
包括 chronological age、性别、吸烟状况(从不、当前或既往)、饮酒状况(从不、当前或既往)以及估计的白细胞亚型比例。
2.6 统计分析
2.6.1 参与者特征
分类变量描述为数量(百分比),连续变量描述为均值(标准差)。使用卡方(χ2 )检验和Kruskal-Wallis检验分别评估分类变量和连续变量在三轮调查中的差异。双尾p < 0.05表示统计学显著性。
2.6.2 年龄变异和年龄相关CpG位点的识别
采用两步分析法。第一步,对每个CpG位点拟合两个混合线性模型:模型1包含随机截距;模型2包含随机截距和随机斜率。两个模型均调整性别、吸烟状况、饮酒状况和白细胞亚型比例以减轻潜在偏倚。使用Akaike信息准则(AIC)评估模型拟合。将模型2显著优于模型1的CpG位点分类为年龄变异。此外,如果最佳拟合模型(模型1或模型2)表现出统计学显著固定效应p值,则该CpG位点被指定为年龄相关。应用Bonferroni校正进行多重检验。在模型2中,个体特异性随机斜率被解释为每个CpG位点的纵向甲基化变化速率,反映了年龄相关甲基化动力学的个体间变异性。
2.6.3 调控注释
在识别不同的CpG位点类别后,将这些位点注释到基因组特征——包括第一外显子、5'UTR、外显子边界、TSS1500、3'UTR、基因体、基因间区(IGR)和TSS200——并比较这些位点类别在功能基因组区域中的分布差异。此外,检查了年龄相关和年龄变异CpG位点与DNase I超敏位点(DHS)的重叠,DHS标记开放染色质区域。使用Fisher精确检验基于CpG类别 × DHS状态的列联表评估富集性,并报告优势比(OR)和p值。
2.6.4 基线风险因素与CpG位点变化速率的关联
通过线性回归模型评估基线BMI和社会经济地位(SES)这两个公认的加速衰老因素与CpG位点纵向甲基化变化速率的关联,调整了年龄、性别和白细胞亚型比例。对每个CpG位点,在p < 0.05水平评估统计学显著性。随后使用Fisher精确检验比较年龄变异和年龄相关CpG类别中显示与BMI或SES显著关联的CpG位点数量。
2.6.5 多器官系统衰老速率的计算
遵循Balachandran等人的程序,选择了与特定器官系统的功能或整体健康相关且具有预定年龄变化方向的宏观表型。将这些表型分组为八个器官系统。为减少冗余,当多个表型反映相同潜在特征时,仅保留一个代表性表型(例如,在肌肉骨骼系统中保留BMI而非身高和体重)。使用R包mice进行多重插补后,排除了无法可靠插补的表型。最终集合包括46个宏观表型。对每个表型,拟合具有随机截距和随机斜率的线性混合效应模型,调整年龄、性别、吸烟状况、饮酒状况和估计的白细胞亚型比例。每个参与者的随机斜率被用作表型特异性衰老速率。为得出每个器官系统的复合衰老速率,在将其方向相对于衰老对齐后,计算表型特异性衰老速率的算术平均值。
2.6.6 CpG位点变化速率与器官系统之间的相关性分析
通过Pearson偏相关分析评估CpG位点特异性衰老速率与器官系统衰老速率之间的关联,调整年龄、性别、吸烟状况、饮酒状况和白细胞亚型比例,使用R包ppcor。选择显著关联的CpG位点并注释到附近基因。
2.6.7 通路富集分析
使用Illumina MethylationEPIC v1.0 BeadChip manifest文件将显著CpG位点注释到其对应基因。然后对与每个器官系统相关的CpG位点分别在KEGG、GO和Reactome数据库中进行功能富集分析。为最小化富集术语间的冗余,计算每个数据库内术语对的相似性。对GO术语应用"Wang"语义相似性算法,而对KEGG和Reactome术语使用"Jaccard"算法。保留相似性得分大于0.5的术语以构建相似性网络,随后使用R包igraph进行社区分析以划分模块。在每个模块中,选择调整后P值最小的术语作为代表性术语。最后,合并来自GO、KEGG和Reactome的非冗余术语。
3 结果
3.1 人群特征
135名参与者(基线年龄70-81岁)中,83名(61.5%)为女性,68名(50.4%)为文盲。在三轮调查期间,社会人口学和生活方式特征(如婚姻状况、吸烟和饮酒模式)未观察到明显变化。
3.2 年龄变异CpG位点的识别
DNA甲基化的初始主成分分析(PCA)显示,PC1和PC2均与年龄显著相关。未观察到与性别、吸烟或饮酒状况的显著关联,但与某些白细胞亚型存在一些关联。值得注意的是,PC1与年龄的关联在个体间差异很大,而PC2表现出相对均匀的年龄相关趋势,个体间变异性最小。这一发现表明衰老与DNA甲基化的剧烈变化相关,其中某些成分(如PC1所捕获的)存在显著的个体间变异。
通过拟合混合效应模型,在Bonferroni校正的显著性阈值(p < 6.0 × 10−8 )下,我们识别出125,353个年龄相关(即平均甲基化水平随年龄显著变化的位点)和3145个年龄变异CpG位点(即甲基化轨迹随年龄呈现显著个体间变异性的位点)。其中205个CpG位点为两类所共有,表明系统性甲基化变化与年龄变异性增加之间存在微小但可能具有生物学意义的重叠。图2c显示了每个类别中五个代表性CpG位点随年龄增长的纵向变化。将我们的结果与SATSA纵向研究比较,发现541个年龄相关CpG位点和18个年龄变异CpG位点重叠。这种适度的重叠,特别是对于年龄变异CpG位点,可能反映了研究间在人群特征(如种族和年龄范围)、样本量、分析策略以及随访持续时间和频率方面的差异。
此外,通过比较年龄变异和年龄相关CpG位点在两个PC上的绝对载荷,发现年龄变异CpG位点在PC1上的载荷显著大于PC2,而年龄相关CpG位点在PC2上的载荷高于PC1。
3.3 现有表观遗传时钟包含有限数量的年龄变异CpG位点
为评估已建立的表观遗传时钟是否优先纳入年龄相关或年龄变异CpG位点,我们对五种广泛使用的表观遗传时钟(即HannumAge、GrimAge、Zhang clock、PhenoAge和DunedinPACE)的年龄变异和年龄相关CpG位点进行了富集分析。经过多重检验校正后,三个时钟——HannumAge、GrimAge和Zhang clock——在年龄相关CpG位点中显示显著富集。然而,现有时钟均未在年龄变异CpG位点中显示显著富集。这表明,尽管某些时钟可能包含年龄变异CpG位点,但它们的设计偏向于与年龄有强平均关联的CpG位点,因此并未富集年龄变异CpG位点。
3.4 通路富集分析揭示年龄相关和年龄变异CpG位点的不同生物学作用
为从功能基因组学角度表征这些CpG位点,我们首先确定了它们在基因组不同区域的分布。年龄变异和年龄相关CpG位点与其各自的基因组位置之间没有显著关系。我们进一步检验了年龄相关和年龄变异CpG位点在DHS富集上是否存在差异。年龄变异CpG位点在DHS区域的富集显著高于年龄相关CpG位点(OR = 1.17, p = 3.85 × 10−5 )。
通路富集分析显示,年龄相关和年龄变异CpG位点参与不同的生物学过程,但具有不同的功能特征。年龄相关位点富集于与神经系统发育(如神经系统发育调控、感觉系统发育)、细胞通讯(如MAPK和钙信号通路)、肌肉细胞骨架组织以及与年龄相关疾病(如人乳头瘤病毒感染和癌症中的蛋白聚糖)相关的通路。年龄变异位点主要富集于与细胞粘附、神经元发育和功能、突触复杂性、离子通道活性和器官发育相关的通路。值得注意的是,两类位点均在神经系统相关通路(包括神经系统发育调控和神经元胞体)中显著富集,表明神经系统是衰老过程中系统性和可变性表观遗传变化的中心靶点。
有趣的是,尽管缺乏广泛的通路富集,但205个重叠CpG位点中的几个位于已知在关键衰老相关过程和器官系统功能中起关键作用的基因中。例如,ZFHX4(cg02298862)和RBM38(cg18523477)参与DNA损伤应答、信号转导和DNA结合过程,这些过程是衰老和年龄相关疾病(如癌症)的核心。此外,PCDHGA(cg08616061)及相关基因涉及大脑中细胞间连接的形成和功能,提示在神经衰老和认知衰退中的潜在作用。这些发现表明重叠CpG位点可能具有独特的生物学意义,可能反映了群体水平一致性变化与高个体间变异性共存的位点——这些特征可能标记在衰老中具有复杂作用的调控位点。
我们进一步评估了BMI和SES与年龄相关和年龄变异CpG位点纵向甲基化变化速率的关联。与年龄相关CpG位点相比,这两个因素与更多数量的年龄变异CpG位点的甲基化变化速率相关,表明这两个CpG类别对公认风险因素的敏感性不同。
3.5 反映多器官系统衰老速率的CpG位点
衰老速率在个体和器官系统间表现出异质性,反映了个性化和系统特异性的衰老轨迹。我们接下来检验了CpG位点纵向甲基化变化速率的个体间变异是否捕捉了器官特异性衰老的差异,根据我们之前的两步分析法,仅关注年龄变异CpG位点。我们识别出925个年龄变异CpG位点的纵向变化速率与多器官系统衰老速率之间的显著关联(p < 0.05)。肝脏具有最多关联的CpG位点,而心血管系统最少。图4c显示了与每个器官系统相关的 top 五个基因。其中一些基因已被证明参与衰老的标志。
通路富集分析显示,与肾脏和大脑相关的CpG位点分别富集于与各系统功能相关的生物学通路,而分配给其他器官系统的CpG位点未表现出类似的清晰系统内富集模式。具体而言,与肾脏衰老相关的CpG位点富集于氯离子稳态、细胞对渗透压的反应和单原子阴离子稳态等通路——这些过程对肾脏液体和电解质调节至关重要。与大脑衰老相关的CpG位点富集于突触后密度和不对称突触等通路——这些结构对突触传递和神经元可塑性至关重要。这些系统特异性模式突出了在衰老过程中保护系统特异性功能的潜在干预靶点。有趣的是,一些与一个器官系统相关的CpG位点富集于通常与其他系统相关的通路——例如,与肌肉骨骼系统相关的CpG位点富集于与心血管功能(如昼夜节律)和神经元衰老(如血清素能突触)相关的通路。这种跨系统重叠突出了衰老的相互关联性以及潜在的器官间影响。
4 讨论
利用来自中国队列的纵向DNA甲基化数据,我们根据其在衰老过程中的动态模式识别了两种不同类型的CpG位点,分别称为年龄相关和年龄变异CpG位点。尽管两类CpG位点都参与与衰老和器官系统功能密切相关的生物学通路(如神经系统的神经元胞体通路),但它们也表现出不同的功能意义。通过绘制年龄变异CpG位点与八个器官系统(如大脑和肾脏)衰老速率的关联,我们进一步识别了器官/系统特异性相关的CpG位点,其对应基因富集于与其各自器官/系统功能相关的生物学通路(如肾脏功能的渗透压应激反应通路)。
许多基于横断面数据建立的表观遗传时钟中包含的CpG位点在捕捉与衰老相关的真实动态变化方面存在局限性。这一局限性可能部分解释了现有表观遗传时钟在CpG组成、年龄关联以及对健康结局的预测性能方面观察到的显著异质性。这些差异表明至少存在两种类型的CpG,即年龄相关和年龄变异CpG。因此,基于横断面数据的研究可能捕获的是年龄相关CpG或两者的混合,而非分离其独特贡献。相比之下,纵向数据提供了区分它们的潜力,因为它们可能反映衰老过程的不同方面并捕捉不同的健康风险。尽管先前研究尝试使用表型的纵向变化进行模型训练,但它们仍然未能捕捉个体水平的位点特异性甲基化动力学。相比之下,本研究利用真实的纵向DNA甲基化数据系统识别和区分年龄相关和年龄变异CpG位点,并探索其潜在不同的生物学功能。我们进一步证明两种甲基化类型都与特定的健康结局和多器官系统的功能相关,为理解衰老背后多样的分子机制提供了线索,并为未来开发针对器官和系统衰老的个性化评估和干预奠定了基础。
将我们的发现与SATSA纵向研究比较时,我们观察到适度的重叠,特别是对于年龄变异CpG位点。这种模式表明年龄相关变化可能在人群间相对保守,而年龄变异甲基化对队列特定因素和分析策略更敏感。未来更大、更协调的纵向甲基化研究对于描绘年龄变异CpG变化可重复的核心以及澄清队列间异质性的来源将非常重要。
我们的分析表明,年龄相关和年龄变异CpG位点可能通过不同但互补的机制驱动衰老动力学,共同促成生物衰老的多维表征。具体而言,虽然两类都富集于公认的衰老相关通路(如细胞粘附),但它们的主要功能注释存在显著差异。年龄相关位点主要与反映内在生物衰老过程的通路相关,而年龄变异位点显示出更明显的与生理系统结构和功能完整性相关通路的富集。例如,已识别出几个与神经系统功能相关的通路,包括神经递质运输、轴突导向和认知相关通路。这些通路在维持神经回路完整性和支持高级脑功能中起关键作用。值得注意的是,尽管存在这些功能差异,在特定功能节点也观察到了两类之间的一定程度的趋同。例如,它们都富集于与神经元胞体相关的通路,表明在脑衰老中可能存在相互作用或共享调控的点,因此突出了神经系统可能作为衰老过程中系统性和可变性表观遗传变化的中心靶点。
含有器官系统特异性相关CpG位点的基因在功能上与其相应的器官/系统相关,表明生物甲基化位点可能对衰老进程施加定向和器官限制性的调控效应。然而,系统内通路富集主要出现在大脑和肾脏。这两个器官据报道表现出相对较强的组织自主性衰老程序:大脑经历与神经元维持和突触功能相关的严格调控的表观基因组重塑,而肾脏显示出与下降的肾脏生理功能密切相关的年龄依赖性代谢和解毒通路改变。相比之下,免疫和代谢等系统主要由系统性、跨器官的调控过程塑造——包括慢性炎症、内分泌信号和循环代谢线索,这可能稀释器官特异性信号,导致较弱的系统内富集。需要进一步研究来阐明这些差异的生物学基础。
应承认几个局限性。首先,当前分析中的参与者仅限于老年人。尽管这个年龄组代表了生命的关键阶段,其中累积的生物损伤和功能衰退变得最为明显,但尚不清楚所识别的甲基化特征是否在更广泛的生命周期阶段中一致表现,我们无法捕捉整个生命周期中甲基化变化的群体水平轨迹。未来纳入更多样化年龄组的纵向表观遗传数据的研究对于表征衰老相关甲基化模式更全面的动态性质至关重要。其次,相对有限的样本量可能限制了检测更显著CpG位点的统计效力,并阻碍了对潜在因果关系的稳健推断。第三,我们不能完全排除潜在噪声源(如技术变异性)对观察到的年龄变异CpG位点的影响。然而,Illumina甲基化阵列的高重现性、所有三个时间点标准化的样本采集和储存方案,以及在相同实验室条件下对所有纵向样本的并行处理,增强了我们研究结果可靠性的信心。第四,由于人群间遗传和环境的异质性,从这个中国队列得出的发现可能不能直接推广到其他种族或人群。此外,独立纵向DNA甲基化数据集的有限可用性阻碍了对所识别甲基化特征的外部验证,从而限制了研究结果的更广泛适用性。最后,DNA甲基化是高度组织特异性的分子特征。当前分析基于血液来源的DNA甲基化谱,而不同组织可能反映系统性衰老背后不同的调控机制。
5 结论
总之,尽管中国队列中老年人数量有限,但本研究利用纵向DNA甲基化数据揭示了衰老过程中不同DNA甲基化动力学背后的差异且互补的调控机制。区分年龄相关和年龄变异甲基化位点为理解个体间生物衰老的异质性提供了更深入的见解,为器官和系统衰老及年龄相关疾病的个性化干预提供了新的基础和潜在靶点。年龄变异CpG位点在构建下一代表观遗传时钟中的潜在用途是一个令人兴奋的未来研究方向。更大的队列和改进的机制理解对于准确解释这些CpG位点的生物学方向性并利用其在时钟开发中的潜力至关重要。
打赏