打开 AI 诊断 “黑匣子”:可解释框架揭秘脑肿瘤 DNA 甲基化分类器,解锁诊疗新契机

时间:2025年2月21日
来源:Nature Communications

编辑推荐:

为解决脑肿瘤分类器决策过程不清晰的问题,德国癌症研究中心的研究人员开展可解释人工智能框架研究。结果发现分类相关的 DNA 甲基化模式等。这有助于发现生物标志物和靶点,推动脑肿瘤研究,值得科研人员一读。

广告
   X   

在癌症诊疗的大舞台上,肿瘤分类诊断无疑是关键的一环。准确地给肿瘤分类,对于预测病情发展和制定合适的治疗方案至关重要。以往,病理学家主要依靠组织学特征来诊断肿瘤,可随着医学的进步,基因组分析技术崭露头角,为肿瘤分类带来了新的曙光。

在脑肿瘤领域,情况更是复杂。中枢神经系统(CNS)肿瘤种类繁多,超过 100 种不同的分子脑肿瘤类别已被识别。即便经验丰富的神经病理学家,在精确区分这些肿瘤时也常常感到棘手。这时,机器学习(ML)算法出现了,它就像一位神奇的助手。研究人员利用基于 DNA 甲基化谱的机器学习算法,开发出了 “海德堡脑肿瘤分类器”。这个分类器能快速、准确且经济地对脑肿瘤进行分类,在临床实践中发挥了重要作用,帮助医生解决了许多疑难病例。

不过,机器学习算法虽然强大,却像一个神秘的 “黑匣子”。它做出的分类决策背后的依据是什么?哪些特定的 DNA 甲基化模式被用于区分不同的肿瘤类别?这些问题一直困扰着科研人员。如果不了解这些,就很难进一步挖掘其潜在价值,也会影响人们对机器学习在临床应用中的信任。

为了揭开这个 “黑匣子” 的秘密,德国癌症研究中心(作者单位)的研究人员在《Nature Communications》期刊上发表了一篇名为《Interpretable artificial intelligence for DNA methylation - based brain tumour classification》的论文。他们通过深入研究,取得了一系列重要成果,为脑肿瘤研究带来了新的突破。

研究人员在这项研究中,用到了几个关键的技术方法。首先是随机森林(RF)算法,它就像一个聪明的 “决策大师”,能利用高维基因组数据集进行分类。研究人员基于这个算法构建模型,分析 DNA 甲基化探针的重要性。其次,他们运用了数据挖掘技术,从大量的数据中提取有用信息,比如计算探针的使用次数来衡量其重要性。此外,还借助了多种生物信息学工具,对数据进行整理、分析和可视化展示 ,让复杂的数据变得清晰易懂。

下面我们来看看具体的研究结果:

可解释人工智能框架的开发


海德堡脑肿瘤分类器和其他基于 DNA 甲基化的分类器都依赖随机森林算法。研究人员想知道哪些 DNA 甲基化模式对分类最重要,于是他们从原始数据集中获取数据和模型。这个数据集包含了 2801 个样本的 DNA 甲基化阵列谱,对应 82 种肿瘤和 9 种正常对照类别,每个样本要测量 428,799 个基因组位点的 DNA 甲基化状态。研究人员通过分析训练过程中每个探针被选中的次数,构建了一个可解释的框架。他们把这些信息整理成一个三维数组,这个数组就像是一个 “信息宝库”,为后续的分析和开发交互式网络应用程序奠定了基础。

差异探针使用的全局模式


研究人员发现,在众多的探针中,只有一小部分探针发挥了关键作用。就像一个团队里,虽然成员众多,但真正起决定作用的往往是少数核心成员。排名前 10,000 或 25,000 的探针,虽然只占所有探针的 2.3% 或 5.8%,却贡献了总探针使用量的 61.2% 或 78.1% 。而那些使用最少的 250,000 个探针,贡献却微乎其微。

不同功能基因组区域的探针使用情况也大不相同。比如,CpG 岛(高 CpG 密度区域)中的探针常被用来区分 IDH 突变的胶质瘤,这些探针在 IDH 突变的胶质瘤中大多是高甲基化的,这和之前报道的 CpG 岛甲基化表型(CIMP)相符合。增强子区域和大规模异染色质结构域也有独特的探针使用模式。ETMR(一种肿瘤类别)常通过位于 DHS 和 CpG 岛增强子内的高甲基化探针来分类,而不同类别的 ATRTs(另一种肿瘤)则显示出在非 CpG 岛增强子内高甲基化探针的高使用率。在启动子区域,大多数肿瘤类别依赖于远离转录起始位点(TSS)的探针进行分类,这说明启动子区域远端的探针可能对大多数肿瘤分类更有帮助。

信息探针的高基因组冗余


研究人员聚焦于基于 10,000 个探针的内部 RF 模型。他们通过无监督聚类和 t-SNE 降维分析发现,这些探针能分成 88 个簇。大部分簇都与单一肿瘤类别相关,比如 71 个簇(占 80.7%)和特定肿瘤类别相关,这表明大多数选择的探针具有很高的类别特异性。而且,属于同一簇的探针在基因组上分布很广,没有集中在特定区域。这就像一群分散在各地的 “侦察兵”,从不同地方收集信息,这种高基因组冗余可能减轻个体患者样本间的差异,也解释了基于 DNA 甲基化阵列的肿瘤分类为何如此稳健。

可解释人工智能揭示肿瘤生物学见解


为了让其他科研人员也能利用这个可解释的框架,研究人员开发了一个用户友好的网络应用程序 “shinyMNP”。这个应用程序就像一个 “宝藏地图”,有四个主要面板,能帮助用户从不同角度探索数据集。

研究人员利用这个应用程序深入研究,发现了许多有趣的现象。在 ETMR 肿瘤中,SHPRH 基因的启动子区域高度甲基化,这导致该基因表达下调。而 SHPRH 基因编码的 E3 连接酶能防止基因组不稳定,所以它的沉默可能是 ETMR 中染色体不稳定和 R 环水平高的原因。在 HGNET_MN1 肿瘤中,PWWP3A 基因的整个基因体都处于低甲基化状态,这个基因在该肿瘤中特异性表达,参与 DNA 损伤修复和染色质组织。PITAD_ACTH 肿瘤的 TBX19 转录因子启动子区域低甲基化,这与该肿瘤的垂体起源有关,而且 TBX19 在垂体促肾上腺皮质激素细胞系的调节中起着关键作用。HGNET_BCOR 肿瘤中,RET 原癌基因的一个特定区域高度甲基化,但该基因却高表达,虽然目前还不清楚这种高甲基化与高表达之间的关系,但由于针对 RET 改变的肿瘤已经有了靶向药物,所以 RET 可能是 HGNET_BCOR 肿瘤的一个潜在治疗靶点。

从这项研究的结论和讨论部分可以看出,它的意义非凡。这个可解释的框架让我们对海德堡脑肿瘤分类器的工作原理有了更清晰的认识。就像给这个神秘的 “黑匣子” 打开了一扇窗,让我们能看到里面的奥秘。它不仅能帮助我们发现疾病生物标志物和治疗靶点,还能为生物信息学管道、机器学习模型的开发以及即时检测提供支持。而且,这个框架还具有很强的扩展性,能应用到未来改进的分类器中,也能推广到其他基于 DNA 甲基化谱和随机森林算法的肿瘤分类器。研究人员还展望了未来,随着纳米孔测序技术的发展,基于研究结果开发更经济、快速的即时检测方法,在液体活检中用于早期癌症检测、分类和疾病监测,都将成为可能。这项研究为脑肿瘤研究和临床应用开辟了新的道路,带来了无限的希望。

生物通微信公众号
微信
新浪微博


生物通 版权所有