通过利用DNA语言模型来预测特定疾病的组蛋白修饰以及非编码变异的功能效应

时间:2026年2月15日
来源:Genome Biology

编辑推荐:

本研究开发了一种基于大语言模型和深度学习的框架,整合多患者表观基因组数据构建疾病特异性数据集,采用混合专家架构有效区分疾病与健康表观遗传状态,实现阿尔茨海默病相关修饰精准预测,显著优于现有方法,并揭示与疾病相关的遗传变异富集于关键通路。

广告
   X   

摘要

背景

表观遗传修饰在人类疾病的发病机制中起着至关重要的作用,尤其是在阿尔茨海默病等神经退行性疾病中,异常的组蛋白修饰与疾病机制密切相关。尽管最近的进展强调了准确识别这些修饰以阐明其对阿尔茨海默病病理学影响的重要性,但现有的计算方法仍受到其通用方法的限制,这些方法忽略了疾病特异性的表观遗传特征。

结果

为了解决这一差距,我们开发了一种基于大型语言模型的深度学习框架,专门用于疾病背景下组蛋白修饰和变异效应的预测。以阿尔茨海默病为案例研究,我们整合了来自多个患者样本的表观基因组数据,构建了一个全面的、疾病特异性的组蛋白修饰数据集,使我们的模型能够学习与阿尔茨海默病相关的分子特征。我们方法的一个关键创新是引入了“专家混合”(Mixture of Experts)架构,该架构能够有效区分疾病状态和健康状态,从而精确识别与阿尔茨海默病相关的表观遗传修饰模式。我们的模型在疾病特异性组蛋白修饰预测方面表现出强大的性能,显著优于缺乏疾病背景信息的现有最先进方法。除了准确预测修饰位点外,我们的框架还通过成功优先识别与阿尔茨海默病相关的遗传变异提供了重要的生物学见解,这些变异在疾病相关通路中表现出显著的富集。

结论

我们的框架为表观遗传学研究建立了一个强大的新范式,可以扩展到其他复杂疾病,既为变异效应的解释提供了有价值的工具,也为通过表观遗传谱型分析揭示新的疾病机制提供了有前景的策略。

背景

表观遗传修饰在人类疾病的发病机制中起着至关重要的作用,尤其是在阿尔茨海默病等神经退行性疾病中,异常的组蛋白修饰与疾病机制密切相关。尽管最近的进展强调了准确识别这些修饰以阐明其对阿尔茨海默病病理学影响的重要性,但现有的计算方法仍受到其通用方法的限制,这些方法忽略了疾病特异性的表观遗传特征。

结果

为了解决这一差距,我们开发了一种基于大型语言模型的深度学习框架,专门用于疾病背景下组蛋白修饰和变异效应的预测。以阿尔茨海默病为案例研究,我们整合了来自多个患者样本的表观基因组数据,构建了一个全面的、疾病特异性的组蛋白修饰数据集,使我们的模型能够学习与阿尔茨海默病相关的分子特征。我们方法的一个关键创新是引入了“专家混合”(Mixture of Experts)架构,该架构能够有效区分疾病状态和健康状态,从而精确识别与阿尔茨海默病相关的表观遗传修饰模式。我们的模型在疾病特异性组蛋白修饰预测方面表现出强大的性能,显著优于缺乏疾病背景信息的现有最先进方法。除了准确预测修饰位点外,我们的框架还通过成功优先识别与阿尔茨海默病相关的遗传变异提供了重要的生物学见解,这些变异在疾病相关通路中表现出显著的富集。

结论

我们的框架为表观遗传学研究建立了一个强大的新范式,可以扩展到其他复杂疾病,既为变异效应的解释提供了有价值的工具,也为通过表观遗传谱型分析揭示新的疾病机制提供了有前景的策略。

生物通微信公众号
微信
新浪微博


生物通 版权所有