基于生成式 AI 整合长程和短程相互作用的全基因组甲基化组建模:解锁表观遗传研究新突破

时间:2025年4月13日
来源:SCIENCE ADVANCES

编辑推荐:

在生物医学研究中,DNA 甲基化数据存在缺失值问题影响研究。研究人员开展 DiffuCpG 模型研究,利用数百万甲基化片段,结合长短程相互作用建模甲基化组。结果显示该模型在准确性、扩展性和通用性上表现卓越,为依赖高通量甲基化数据的研究带来重大利好。

广告
   X   

在生物医学的广袤领域中,DNA 甲基化犹如一位神秘的幕后 “指挥官”,操控着基因表达、细胞分化、基因组稳定性和遗传等诸多生命进程的 “开关”。当它的调控出现异常时,癌症、神经系统疾病、衰老以及发育异常等一系列健康问题便接踵而至。为了深入探索这个神秘的 “指挥官”,科学家们借助各种高通量技术来检测 DNA 甲基化水平,然而,这些技术却存在着一个棘手的问题 —— 数据缺失。就好比在拼图游戏中,缺失了关键的拼图块,使得完整的图像难以呈现。
传统的微阵列技术只能检测不到 2% 的 CpG 位点,而 bisulfite 测序虽然是目前主流的高通量甲基化定量方法,但也面临着覆盖率有限和数据缺失的困扰。例如,全基因组亚硫酸氢盐测序(WGBS)虽能尽力捕捉整个基因组的甲基化状态,但其成本较高;简化代表性亚硫酸氢盐测序(RRBS)虽然成本相对较低,却牺牲了低 CpG 含量基因组区域的覆盖;增强型简化代表性亚硫酸氢盐测序(ERRBS)虽有所改进,但依旧无法完全解决问题。单细胞水平的甲基化检测也存在局限性,其结果只能是二元的。并且,由于缺乏单倍型信息,甲基化数据缺失值的插补效果远不如单核苷酸多态性(SNP)数据。此前的研究尝试解决这一问题,如 DeepCpG 等工具,但仍有提升空间。

为了突破这些困境,来自未知研究机构的研究人员开展了一项极具创新性的研究,他们开发了 DiffuCpG,这是一种基于生成式人工智能(AI)扩散模型的甲基化插补工具。这项研究成果发表在《SCIENCE ADVANCES》上,为甲基化研究带来了新的曙光。

研究人员为开展这项研究,运用了多种关键技术方法。他们使用了 14 个数据集,涵盖了 5 种组织类型、8 种疾病和 5 种甲基化技术,包括 3 个亚硫酸氢盐测序和 2 个 Hi-C 的原始数据集以及 9 个公共数据集。样本来源于 26 例急性髓系白血病(AML)患者和 93 例骨髓增生异常综合征(MDS)患者等。同时,利用 WGBS、ERRBS、Hi-C 等实验技术获取数据,并基于 U-Net 架构构建 DiffuCpG 模型,通过训练和优化来实现甲基化数据的插补。

研究结果主要体现在以下几个方面:

  • CpG 覆盖情况:研究比较了 WGBS、ERRBS、单细胞简化代表性亚硫酸氢盐测序(scRRBS)和 450K 这四种主要技术的 CpG 覆盖情况。发现 WGBS 覆盖的 CpG 位点最多,在基因组、蛋白质编码区域和所有基因区域的覆盖率分别为 79%、80% 和 79%;ERRBS 覆盖较少,分别为 17%、20% 和 19%;450K 仅覆盖 0.6%、0.9% 和 0.8%;scRRBS 覆盖最稀疏。并且,所有技术都存在数据缺失问题,scRRBS 的缺失率最高,中位数缺失百分比达 92%。
  • 性能和比较:DiffuCpG 模型在不同窗口大小和特征组合下进行训练和测试。结果表明,1000-bp 窗口大小且至少有 10 个测量的 CpG 位点时性能最佳,中位数插补性能超过 80%。包含 DNA 序列数据、Hi-C 数据和跨样本置信区间(CI)数据的特征组合性能最优。与其他四种甲基化插补工具(MissForest、LightCpG、MethyLImp2 和 DeepCpG)相比,DiffuCpG 在可插补 CpG 位点数量、平衡准确度、相关性、F1 分数和均方根误差(RMSE)等方面表现更优。例如,在从 ERRBS 插补时,DiffuCpG 的 86% 插补结果与真实值的差异小于 0.25。
  • 跨组织、跨疾病和跨技术的稳健性:研究发现,尽管甲基化模式存在组织和疾病特异性,但 DiffuCpG 在不同组织、疾病和技术平台上均表现出色。通过分析不同组织类型和肿瘤类型的 450K 甲基化数据,发现组织特异性甲基化 CpG 位点(TS-CpGs)比例相对较低,且 DiffuCpG 在不同技术平台上的平均得分较高,在正常和肿瘤组织的 TS-CpGs 和非组织特异性 CpG 位点(NTS-CpGs)上均表现良好。

研究结论和讨论部分指出,DiffuCpG 模型利用生成式 AI,在处理缺失甲基化数据方面展现出了卓越的准确性和通用性。它不仅能够捕捉非线性和非数值模式,还具有更强的抗噪声能力、更好的泛化性和可扩展性。该模型的成功开发,标志着甲基化分析取得了重大突破,为进一步推进甲基化研究,以及在生物医学和临床领域的广泛应用奠定了坚实基础。它有望帮助科学家们更深入地理解表观遗传调控机制,为疾病的诊断、治疗和预防提供新的思路和方法。

生物通微信公众号
微信
新浪微博


生物通 版权所有