基于临床大数据的全生命周期生物钟模型及其在健康与疾病中的应用研究

时间:2025年10月28日
来源:Nature Medicine

编辑推荐:

本研究针对现有衰老研究主要关注成年阶段、缺乏覆盖全生命周期的生物时钟模型的现状,开发了名为LifeClock的创新模型。研究人员利用来自968万余名患者的2463万次纵向临床就诊数据,通过EHRFormer这一基于Transformer的时序模型,构建了能够从婴儿期到老年期精准预测生物年龄的算法。研究首次揭示了儿童发育时钟与成人衰老时钟的不同特征,并证明该模型能准确预测当前和未来重大疾病风险,为全生命周期精准健康管理提供了新框架。

广告
   X   

在衰老研究领域,科学家们长期以来一直致力于开发能够准确衡量人体生物学年龄的指标。传统上,生物学年龄(BA)主要通过DNA甲基化等分子标记来评估,但这些方法成本高昂且难以在临床中广泛应用。更关键的是,现有研究大多聚焦于成年期的衰老过程,而对从婴儿期到青春期的发育阶段缺乏系统性的生物学年龄评估工具。这一空白限制了我们对人类全生命周期健康轨迹的完整理解。
针对这一挑战,国际数字孪生医疗联盟的研究团队在《Nature Medicine》上发表了突破性研究成果。他们开发了一个名为LifeClock的全生命周期生物时钟模型,该模型仅使用常规临床检查和实验室检验数据,就能精准预测从出生到老年的生物学年龄。
为了构建这一创新模型,研究人员整合了来自中国健康老龄化调查(CHAI)项目的大规模数据,包括968万余名患者的2463万次纵向临床就诊记录。研究团队开发了专门的EHRFormer模型,这是一种基于Transformer架构的深度学习模型,专门设计用于处理电子健康记录(EHR)的时序特性。
该研究采用了多项关键技术方法:首先建立了包含184项临床指标的标准数据集,涵盖实验室检验结果和生命体征数据;其次开发了EHRFormer模型架构,包含检查编码器、时间嵌入和任务特定解码器;采用对抗学习策略控制数据缺失和队列偏倚;通过自监督预训练学习稳健的临床表征;利用多中心验证队列(包括UK Biobank)进行外部验证。
研究结果
生命阶段特异的生物时钟模式
研究发现,人类的生物学年龄预测模型在18岁前后表现出明显不同的特征。因此,研究团队分别建立了儿科发育时钟(0-18岁)和成人衰老时钟(18岁以上)两个专门模型。
儿科发育时钟的主要预测指标包括低水平的天门冬氨酸氨基转移酶(AST)、高肌酐(Crea)和高总蛋白(TP),而成人衰老时钟的关键指标则为高尿素、低白蛋白(ALB)和高红细胞分布宽度(RDW)。两个时钟的top20特征几乎完全不同,印证了发育与衰老过程的生物学本质差异。
模型在内部验证队列中表现出色,预测生物学年龄与实际年龄之间存在强相关性(R2值较高)。在UK Biobank外部验证队列中,模型的平均绝对误差(MAE)仅为4.14岁,证明了其良好的泛化能力。
疾病风险预测与分层
通过Leiden聚类分析,研究人员将患者数据划分为64个具有不同临床特征的亚群。这些聚类不仅反映了年龄特征,还与特定疾病风险密切相关。
在儿科人群中,聚类分析成功识别出具有特定疾病倾向的群体。例如,聚类14的个体发生垂体功能亢进和肥胖的风险分别增加15.36倍和11.07倍;聚类12的个体疝气风险增加10.13倍;聚类8的个体性早熟风险增加4.95倍。而在成人中,聚类20的个体表现出极高的血管相关疾病风险,低血压风险增加9.03倍,肾衰竭风险增加37.70倍。
疾病预测模型的精准应用
研究团队进一步对EHRFormer模型进行微调,使其能够预测特定疾病的发生风险。模型在多种疾病的当前诊断和未来预测中均表现出卓越性能。
在心血管疾病方面,模型预测心房颤动(AUC=0.95)、冠状动脉疾病(AUC=0.98)、高血压(AUC=0.95)和缺血性卒中(AUC=0.97)的准确度极高。在神经系统疾病和系统性疾病预测中同样表现优异,多发性硬化症(AUC=0.96)、帕金森病(AUC=0.94)、骨质疏松症(AUC=0.96)、类风湿关节炎(AUC=0.96)和糖尿病(AUC=0.98)的预测精度均达到临床应用水平。
更重要的是,模型在长期风险预测中保持稳定性能,5年发病率预测的AUC介于0.80-0.90之间,10年发病率预测的AUC介于0.81-0.91之间。与XGBoost和RNN等传统模型相比,EHRFormer在所有测试疾病中都显示出显著优势。
风险分层与干预时机识别
通过将人群分为高、中、低风险组,研究展示了模型在生命早期识别长期疾病风险的能力。基于12岁前的儿科EHR数据,模型能够有效预测肥胖、脑膜炎、癫痫、系统性红斑狼疮(SLE)、哮喘和幼年关节炎等疾病的未来风险。同样,基于40岁前的成人EHR数据,模型能准确预测心房颤动、冠状动脉疾病、糖尿病等多种年龄相关疾病的长期风险。
研究结论与意义
这项研究首次建立了覆盖全生命周期的生物时钟模型,突破了传统衰老研究仅关注成年期的局限。LifeClock模型不仅区分了儿童发育与成人衰老的生物学本质差异,还证明了常规临床数据在疾病风险预测中的巨大价值。
研究的创新性在于将Transformer架构成功应用于纵向EHR数据分析,通过EHRFormer模型学习到的数字表征能够捕捉个体健康状态的动态变化。这种基于潜在空间的方法为理解衰老和疾病进程提供了新视角,使生物年龄评估从静态指标转变为动态、可实时更新的系统。
该模型的临床意义深远:首先,它为儿科发育评估提供了量化工具,能够识别发育异常风险;其次,为成人慢性病预防提供了早期预警系统;最后,模型仅使用常规临床数据,使其具备大规模推广的可行性,为普惠性精准医疗奠定了基础。
尽管存在观察性数据固有的局限性,但研究通过多中心外部验证证明了模型的稳健性。未来整合可穿戴设备、环境传感器等多元数据,有望进一步提升模型的准确性和实用性。
这项研究标志着衰老研究从分子层面向临床实践转化的重要进展,为实现全生命周期健康管理提供了科学框架和技术支撑。通过将广泛可及的EHR数据转化为有价值的健康洞察,研究为推进精准医疗在衰老研究中的应用开辟了新途径。

生物通微信公众号
微信
新浪微博


生物通 版权所有