用于预测急性髓系白血病全幻灯片图像基因突变的无注释深度学习

时间:2025年2月4日
来源:npj Precision Oncology 6.8

编辑推荐:

广告
   X   

基于深度学习从急性髓系白血病全切片图像预测基因突变的研究解读


近期,来自国立台湾大学先进生物医学计算与成像中心(Center for Advanced Computing and Imaging in Biomedicine, National Taiwan University)等单位的研究人员在npj Precision Oncology期刊上发表了题为 “Annotation-free deep learning for predicting gene mutations from whole slide images of acute myeloid leukemia” 的论文。该研究意义重大,为急性髓系白血病(AML)的基因突变预测提供了新的思路和方法,有望改善 AML 患者的诊断和治疗策略,推动精准肿瘤学的发展。

一、研究背景


AML 作为一种侵袭性血液恶性肿瘤,具有显著的生物学和临床异质性,精准的风险分层对优化治疗效果、减少治疗相关并发症至关重要。目前,细胞遗传学变化和基因突变已被用于风险分层,其中 NPM1 和 FLT3-ITD 是 AML 患者中最常见的复发性基因突变 。然而,对这些突变进行分子检测存在诸多挑战,如不同机构资源和实验室基础设施差异大,限制了检测的可及性,延长了检测周转时间。

全切片图像(WSIs)技术可将病理标本转化为高分辨率数字图像,深度学习在基于 WSIs 的医学图像处理任务中展现出潜力,但在分析骨髓穿刺涂片时仍面临挑战。骨髓穿刺涂片细胞结构复杂,存在细胞类型多样、非细胞碎片多等问题,识别感兴趣区域(ROI)和区分单个细胞或物体与背景需多步骤预处理,且手动注释细胞的过程既费力又耗时。因此,开发更高效准确的骨髓穿刺涂片 WSIs 分析方法迫在眉睫。

二、研究材料与方法


(一)数据集


研究纳入了 1994 年至 2015 年在国立台湾大学医院(NTUH)确诊的 572 例初诊 AML 患者。对骨髓涂片和外周血涂片进行改良 Romanowsky 染色后,使用 Hamamatsu NanoZoomer Digital Slide Scanner 扫描为 WSIs,分辨率约为 0.23μm / 像素。利用 TruSight myeloid panel 在 HiSeq 平台(Illumina)上确定基因突变状态,突变标注为 1(存在致病性或可能致病性突变)或 0(不存在此类突变)。该回顾性研究获得了 NTUH 研究伦理委员会批准,所有参与者均签署了知情同意书。

(二)细胞图像生成


首先用 PyHIST 工具生成补丁,过滤掉背景区域和非涂片区域,以最高分辨率(×40 放大倍数)提取 512×512 像素的补丁。然后利用基于 DenseNet121 的 ROI 检测模型,将生成的补丁分为 ROI 和非 ROI 补丁,去除包含密集白细胞或无白细胞的区域。最后,应用基于 YOLOv4 的细胞检测模型检测 ROI 补丁中的白细胞,获取用于后续模型训练的细胞。

(三)数据增强


由于 WSI 队列存在显著的类别不平衡,突变样本相对较少。研究采用上采样策略,将突变 WSI 的细胞分为多个包含 2000 个细胞的集合(袋),增加训练数据中突变类别的数量;同时对标准 WSI 随机选择 2000 个细胞作为一个袋,减少输入数据量,加快训练速度。

(四)多实例学习(MIL)


MIL 是一种弱监督学习方法,利用标记的实例组(袋)进行学习,无需单个实例标签。在本研究中,每个袋包含多个细胞,根据其来源 WSI 的标签将袋标记为 “突变” 或 “标准”。使用 DenseNet121 作为嵌入模型,在训练过程中,MIL 训练分为推理阶段和学习阶段。推理阶段,模型根据输入细胞输出 “突变” 的概率;学习阶段,选择每个袋中概率最高的前 K 个细胞作为训练数据,通过交叉熵损失函数更新模型权重。

(五)集成学习


集成学习通过训练和组合多个模型来解决复杂问题。研究采用基于损失的加权方法,根据每个模型的损失函数确定其在集成中的贡献,选择损失值最低的前三个 MIL 模型作为弱学习器,将它们的概率预测结果按照权重进行组合,得到最终的预测结果。

三、研究结果


(一)ROI 补丁的自动选择


通过开发的管道,利用 PyHIST 工具和微调的 DenseNet121 架构,能自动识别骨髓穿刺涂片 WSIs 中适合细胞学分析的 ROI 区域。结果显示,经过筛选,大多数 WSIs 的 ROI 补丁数量减少到原来的 10 - 25% ,有效去除了存在问题的补丁,同时保留了细胞数量少的补丁,减少了后续细胞检测的时间,提高了筛选效率。

(二)白细胞检测


应用 YOLOv4 模型检测 ROI 补丁中的细胞和非细胞物体,设置 0.5 的置信度阈值和 51×51 像素到 80×80 像素的细胞大小范围,选择最具代表性的细胞并调整为 64×64 像素作为 MIL 训练的输入。每个 WSI 剩余的细胞数量在 100 到 100,000 之间,多数低于 20,000,平均为 11,273,有效减少了 MIL 模型的输入量,同时保证了输入细胞的质量,加快了训练速度。

(三)细胞水平的多实例学习


将 572 例 WSIs 数据集按 7:1:2 的比例在玻片水平划分为训练集、验证集和测试集。以 DenseNet121 为基础嵌入模型,MIL 模型训练 100 个 epoch,学习率为 0.0001,使用 Adam 优化器通过随机梯度下降最小化损失。结果表明,细胞水平的上采样结合集成学习提高了模型在测试集上对两种基因突变的预测性能,NPM1 突变的 AUC 达到 0.90±0.08,FLT3 - ITD 的 AUC 达到 0.80±0.10 ,优于非上采样的补丁级和细胞级 MIL 模型,也优于先前基于细胞水平注释的技术。

此外,研究通过比较九种细胞类型的比例发现,blasts 在基因突变预测中起着关键作用。在突变样本中,MIL 预测后 blasts 在 top 100 代表性细胞中的比例显著增加;在非突变样本中则减少,表明 blasts 是深度学习中判断是否存在突变的重要指标。

四、研究结论与讨论


本研究利用无注释数据进行细胞水平的分析,结合 MIL、上采样和集成学习技术,在预测 NPM1 突变和 FLT3 - ITD 方面展现出良好的性能。研究发现,FLT3 - ITD 的存在对 NPM1 模型的预测影响不显著,而 NPM1 突变的存在会影响 FLT3 - ITD 模型的预测性能;DNMT3A 突变的存在与否对两个模型的性能影响均不明显。年龄对模型性能无显著影响,高白细胞血症会使 NPM1 模型性能下降,FLT3 - ITD 模型相对不受影响。NPM1 模型在高 VAF 亚组中表现出色,FLT3 - ITD 模型在高 VAF 亚组中性能下降。

该模型在临床应用中具有重要潜力,虽 FLT3 - ITD 突变的假阳性率有待进一步优化,但可辅助临床医生重新评估突变状态,为靶向治疗提供依据。同时,blasts 在突变检测中的重要性得到证实,为进一步研究细胞形态与基因突变的关系提供了方向。未来可通过嵌入更多详细特征,结合下一代测序技术,缩短临床实践中获得有效诊断信息的时间;提高涂片图像分辨率,更精确地观察突变影响的形态区域,增强模型的实用性。

综上所述,本研究展示了集成学习、上采样技术和 MIL 在预测 AML 患者基因突变中的巨大潜力,利用仅在玻片水平标记的训练数据,避免了细胞图像手动注释的繁琐过程,为医学图像分析中解决复杂的现实问题提供了新的方法和思路,为精准肿瘤学的发展奠定了坚实基础。

相关新闻
生物通微信公众号
微信
新浪微博


生物通 版权所有