Annotation-free deep learning for predicting gene mutations from whole slide images of acute myeloid leukemia:AI 助力急性髓系白血病基因突变预测新突破

时间:2025年2月4日
来源:npj Precision Oncology

编辑推荐:

急性髓系白血病(AML)的基因突变检测面临挑战,研究人员开展基于深度学习预测 AML 全切片图像(WSIs)基因突变的研究。结果显示模型预测 NPM1 和 FLT3-ITD 突变的 AUC 分别达 0.90±0.08 和 0.80±0.10,为临床诊断提供新途径。

广告
   X   

在医学领域,急性髓系白血病(Acute Myeloid Leukemia,AML)是一种极具侵袭性的血液恶性肿瘤,如同隐藏在人体血液中的 “恶魔”,严重威胁着人们的健康。它具有显著的生物学和临床异质性,主要表现为造血前体的不受控制增殖和分化受损。精准的风险分层对于优化 AML 的治疗效果、减少治疗相关并发症至关重要,而目前一系列细胞遗传学变化和基因突变已被纳入风险分层体系,其中 Nucleophosmin 1(NPM1)和 FMS 样酪氨酸激酶 - 3 内部串联重复(FLT3-ITD)是 AML 患者中最常见的复发性基因突变 。然而,对这些基因突变进行分子检测却困难重重。尽管部分机构可通过简单的 PCR 方法在数天内得出 FLT3-ITD 和 NPM1 突变结果,但不同机构间资源和实验室基础设施的差异,使得检测的可及性受限,检测周转时间延长。
与此同时,全切片图像(Whole Slide Images,WSIs)技术利用数字成像,将病理标本转化为高分辨率数字图像,详细展示细胞和组织学结构,为医学诊断带来了新的希望。深度学习在使用 WSIs 进行二元形态分类和组织学分级等任务中展现出潜力,但分析骨髓穿刺液的 WSIs 仍面临挑战。骨髓穿刺液的细胞学性质复杂,存在小而杂乱的区域,包含多种细胞类型和非细胞碎片,识别感兴趣区域(Regions of Interest,ROIs)并区分单个细胞或物体与背景,需要繁琐的多步骤预处理,如分割和去噪,而且专家手动注释分割细胞既费力又耗时。因此,开发一种更高效准确的骨髓穿刺液 WSIs 分析方法迫在眉睫。

为了解决这些难题,国立台湾大学的研究人员开展了一项基于深度学习的研究。他们提出了一种基于多实例学习(Multiple Instance Learning,MIL)和集成技术的深度学习模型,旨在从 AML 的 WSIs 中预测基因突变,且无需进行斑块级或细胞级注释。该研究成果发表在《npj Precision Oncology》上,为 AML 的诊断和治疗开辟了新的道路。

研究人员在开展此项研究时,主要运用了以下几种关键技术方法:首先,构建了一个包含 572 例 AML 患者的数据集,这些患者的骨髓涂片和外周血涂片经改良 Romanowsky 染色后扫描成 WSIs,基因突变为通过 TruSight 髓系面板在 HiSeq 平台上确定。其次,通过三步过滤法处理 WSIs 的骨髓涂片,以获取用于模型训练的细胞图像,包括利用 PyHIST 工具生成斑块、使用基于 DenseNet121 的 ROI 检测模型选择 ROI 斑块、运用基于 YOLOv4 的细胞检测模型检测白细胞。此外,针对数据不平衡问题,研究人员采用了数据增强策略,将突变 WSIs 的细胞分成多个集合,并对标准 WSIs 随机选取固定数量细胞。最后,利用 MIL 和集成学习训练模型,MIL 训练过程包括推理阶段和学习阶段,集成学习则通过损失函数确定模型权重,组合多个模型提高预测性能。

下面来看具体的研究结果:

  • 自动选择 ROI 斑块:研究人员开发了一套自动选择 ROI 斑块的流程,先使用 PyHIST 工具去除空白背景区域,再利用预训练的 DenseNet121 架构对斑块进行分类。结果显示,经此筛选过程,大多数 WSIs 的 ROI 斑块数量减少到原来的 10 - 25% ,有效去除了有问题的斑块,保留了少量细胞的斑块,减少了后续细胞检测的时间,提高了筛选效率。
  • 白细胞检测:使用 YOLOv4 模型在选定的 ROI 斑块中自动检测和分类细胞及非细胞物体。通过设置 0.5 的置信度阈值和 51×51 像素到 80×80 像素的细胞大小范围,选择高质量细胞用于后续 MIL 模型训练。最终每个 WSI 剩余的细胞数量在 100 到 100,000 之间,多数低于 20,000,平均为 11,273,在减少输入量的同时保证了细胞质量,加速了训练。
  • 细胞级多实例学习:将 572 例 WSIs 数据集按约 7:1:2 的比例划分为训练集、验证集和测试集。以 DenseNet121 为基础嵌入模型,MIL 模型训练 100 个 epoch,学习率设为 0.0001,使用 Adam 优化器。结果表明,细胞级上采样结合集成学习提高了模型在测试集上对两种基因突变的预测性能,NPM1 突变的 AUC 达到 0.90±0.08,FLT3-ITD 突变的 AUC 达到 0.80±0.10 ,且降低了假阳性率。同时,研究发现 blasts 细胞在基因突变预测中起着关键作用,突变样本中 blasts 细胞比例增加,非突变样本中则减少。

在研究结论和讨论部分,该研究利用无注释数据进行细胞水平分析,在预测 NPM1 和 FLT3-ITD 突变方面表现出色。研究还探讨了基因相互作用对模型的影响,发现 FLT3-ITD 对 NPM1 模型预测影响不显著,而 NPM1 突变存在时 FLT3-ITD 模型预测性能下降,DNMT3A 突变对两个模型性能影响不大。此外,年龄对模型性能无显著影响,高白细胞血症对 NPM1 模型有影响,对 FLT3-ITD 模型影响较小,NPM1 突变的高 VAF 亚组中模型表现不同。

这项研究意义重大,模型在临床应用中具有潜力,虽 FLT3-ITD 突变预测的假阳性率有待优化,但结果可促使临床医生进行确认性检测,尤其是针对有有效靶向治疗的患者。同时,研究明确了 blasts 细胞在基因突变预测中的重要性,为进一步研究遗传状态与细胞形态之间的关系奠定了基础。不过,模型也存在改进空间,如嵌入更多详细特征、提高涂片图像分辨率等。总体而言,该研究展示了集成学习、上采样技术和 MIL 在预测 AML 患者基因突变方面的巨大潜力,为医学领域解决复杂的现实挑战提供了新的思路和方法。

生物通微信公众号
微信
新浪微博


生物通 版权所有