编辑推荐:
为解决单细胞 DNA 甲基化技术 CpG 位点覆盖度低的问题,约翰霍普金斯医学园区利伯脑发育研究所的研究人员开展 scMeFormer 模型相关研究,发现其能精准插补数据、助力发现精神分裂症相关 DMRs。推荐阅读,解锁单细胞表观遗传奥秘!
在生命科学的微观世界里,DNA 甲基化(DNA methylation,DNAm)是一个极为关键的角色。它就像是细胞中的 “小卫士”,通过在 DNA 的胞嘧啶上添加甲基基团,参与到基因调控、哺乳动物发育以及各种人类疾病的进程中。打个比方,DNA 就像是一本写满指令的书,而 DNA 甲基化则像是书中的特殊标记,它能决定哪些指令被读取,哪些被暂时搁置。
随着科技的进步,单细胞技术应运而生,它能够深入到单个细胞中,对 DNA 甲基化状态进行分析,帮助我们更好地理解细胞的异质性、发育过程以及疾病状态。然而,这项技术却有个不小的 “短板”。由于单个细胞中可用的 DNA 材料有限,再加上技术本身的一些限制,目前的单细胞 DNA 甲基化检测技术对 CpG 位点(DNA 上特定的区域,在甲基化研究中非常重要)的覆盖度很低,通常在一个细胞中只能检测不到 10% 的 CpG 位点。这就好比我们看一幅拼图,只能看到其中的一小部分,很难拼凑出完整的图案,极大地限制了我们对单细胞层面表观遗传景观的全面了解。
为了解决这个难题,来自美国约翰霍普金斯医学园区利伯脑发育研究所(Lieber Institute for Brain Development, Johns Hopkins Medical Campus)等机构的研究人员,在《Cell Genomics》期刊上发表了一篇名为 “Deep learning imputes DNA methylation states in single cells and enhances the detection of epigenetic alterations in schizophrenia” 的论文。他们开发了一种名为 scMeFormer 的深度学习模型,这个模型就像是一个神奇的 “拼图大师”,能够高效地填补单细胞 DNA 甲基化数据中的缺失部分,帮助我们更清晰地看到细胞中的 “表观遗传拼图”。
研究人员在这项研究中主要用到了深度学习技术来构建 scMeFormer 模型。同时,为了评估模型性能和分析数据,他们使用了多种单细胞 DNA 甲基化数据集,包括来自人类大脑和小鼠胚胎的不同技术生成的数据;还运用了多种分析方法,如计算模型预测性能指标(平均精度召回曲线下面积 AUPRC 等)、鉴定差异甲基化区域(DMRs)等。
下面我们来详细看看他们的研究结果:
scMeFormer 模型由两个主要模块组成:DNA 模块和 CpG 模块。DNA 模块负责学习 DNAm 模式,就像一个细心的观察者,从 DNA 序列中找出那些隐藏的规律;CpG 模块则利用相邻 CpG 位点的 DNAm 信息,像是在拼图时参考周围的碎片,让拼图更加完整。研究人员将 scMeFormer 应用于五个不同的单核 DNAm 数据集,这些数据集就像是五本不同的 “生命之书”,涵盖了人类大脑和小鼠胚胎的相关数据。结果发现,scMeFormer 的预测性能非常出色,平均 AUPRC 达到了 0.871。而且,研究人员还尝试了一种预训练和微调的策略,就像是先给模型 “打个基础”,再根据具体情况进行调整,结果发现微调后的模型性能和从头训练的模型相当,却大大减少了计算成本。此外,研究人员还对比了 scMeFormer 和其他模型,发现 scMeFormer 在预测各种变化程度的 CpG 位点时,都比其他模型表现得更优秀。这就好比在一场比赛中,scMeFormer 总是能跑在前面,率先到达终点。
为了模拟实际研究中 CpG 覆盖率较低的情况,研究人员通过下采样(downsampling,就像是从完整的数据中抽取一部分来模拟低覆盖度的情况)来降低训练模型时使用的 CpG 位点数量。他们发现,虽然随着 CpG 覆盖率降低,scMeFormer 和聚类模型的预测性能都略有下降,但 scMeFormer 始终比聚类模型表现更好。即使在 CpG 覆盖率低至 1% 的极端情况下,scMeFormer 的平均 AUPRC 仍能达到 0.821,这说明它在处理低覆盖度数据时,就像一个经验丰富的探险家,能够在有限的线索中找到正确的方向,依然能保持较高的准确性。
研究人员还定义了一个插补质量评分指标,这个指标就像是一把衡量数据质量的 “尺子”,通过测量目标 CpG 位点与其上下游相邻 CpG 位点预测 DNAm 状态的平均绝对差异来评估数据质量。他们发现,通过设置不同的评分阈值进行过滤,能够提高预测性能。例如,在 sn - m3C - seq 数据集中,未过滤时 AUPRC 为 0.855,而当应用 0.1 的过滤评分阈值时,AUPRC 提高到了 0.935。这就好比对拼图碎片进行筛选,去掉那些不太合适的,剩下的就能拼出更准确的图案。
研究人员通过下采样来降低 CpG 覆盖率,然后观察插补后的 CpG 位点能否恢复原始数据中的细胞类型簇。他们使用调整兰德指数(ARI,一种衡量两个聚类结果相似程度的指标)来评估。结果发现,scMeFormer 在这方面表现非常出色,即使在低至 0.05 的下采样率下,它依然能保持较高的 ARI 值(平均 ARI = 0.72),而聚类模型和未插补的方法则表现较差。这表明 scMeFormer 在处理低质量数据时,就像一个优秀的修复师,能够将破碎的细胞簇信息重新拼凑完整。
研究人员评估了插补数据恢复细胞类型之间差异甲基化区域(DMRs)的能力。他们发现,scMeFormer 在插补 CpG 位点时,能够保留识别细胞类型特异性 DMRs 的关键信息。在原始未插补的数据集中,检测到的 DMRs 数量很少,但经过 scMeFormer 插补后,不同过滤阈值下都能检测到大量的 DMRs。而且,即使在 10% 下采样的数据中,scMeFormer 检测到的 DMRs 数量也与原始数据相当。这就像是给我们戴上了一副 “透视眼镜”,让我们看到了原本隐藏在数据背后的大量 DMRs 信息。同时,研究人员还对这些 DMRs 进行了一系列分析,发现它们与多种生物学过程和疾病相关,进一步证明了 scMeFormer 的有效性和这些 DMRs 的生物学意义。
研究人员将 scMeFormer 应用于精神分裂症(SCZ)患者和神经典型对照者前额叶皮质的单核 DNAm 数据中。他们发现,在未插补数据时,几乎检测不到与 SCZ 相关的 DMRs,但经过 scMeFormer 插补后,发现了数千个 DMRs。这些 DMRs 主要是上调的(意味着在 SCZ 患者中 DNAm 水平增加),并且与 SCZ 全基因组关联研究(GWAS)信号显著相关。进一步分析发现,这些 DMRs 主要影响兴奋性神经元中的基因表达,这表明兴奋性神经元在 SCZ 的发病机制中可能起着关键作用。这就好比找到了一把打开 SCZ 发病机制大门的钥匙,让我们对这种复杂疾病有了更深入的认识。
总的来说,研究人员开发的 scMeFormer 模型为单细胞 DNAm 数据分析带来了新的突破。它不仅能够高效地填补单细胞 DNA 甲基化数据中的缺失值,而且在准确性和效率上都优于现有的模型。通过应用 scMeFormer,研究人员发现了大量与精神分裂症相关的差异甲基化区域,为深入了解精神分裂症的表观遗传机制提供了重要线索。同时,scMeFormer 的成功也为其他单细胞组学数据的分析提供了新的思路和方法,就像在黑暗中点亮了一盏明灯,为相关领域的研究开辟了新的方向。
不过,这项研究也存在一些局限性。例如,scMeFormer 依赖参考基因组的输入 DNA 序列,这可能与实际研究样本的序列不完全匹配;插补质量指标的假设在某些情况下可能不成立;模型在处理细胞间高变异性的 CpG 位点时存在挑战,并且在不同甲基化程度区域的表现存在差异;目前模型仅专注于 CpG 位点的插补,尚未涉及在神经元中具有重要作用的 CpH 位点。但这些局限性并没有掩盖 scMeFormer 的光芒,它依然为单细胞 DNAm 研究提供了强有力的工具,推动着相关领域不断向前发展,让我们对生命的奥秘有了更深入的探索可能。
生物通 版权所有