SMMILe:基于多示例学习的数字病理学空间定量新方法,实现精准癌症诊断与分型

时间:2025年11月20日
来源:Nature Cancer

编辑推荐:

本刊推荐一项突破性研究:为解决数字病理学中全幻灯片图像(WSI)分类与空间定量难以兼顾的难题,研究人员开发了基于超斑块的可测量多示例学习框架SMMILe。该研究通过理论证明与实验验证,在6种癌症类型、8个数据集(3,850张WSI)上证实SMMILe在保持顶尖WSI分类性能的同时,实现了卓越的空间定量能力,为病理学人工智能工具的可解释性奠定了新基准。

广告
   X   

在当今数字病理学快速发展的时代,病理医生面临着前所未有的挑战。每天需要分析数以千计的全幻灯片图像(WSI),这些图像尺寸巨大,单个文件可达数十亿像素。传统的计算方法虽然能够辅助进行图像分类,但往往像"黑盒子"一样,只能给出整体诊断结果,而无法精确指示病变的具体位置。这就好比只知道森林里有珍稀植物,却无法定位到具体哪棵树。
这种困境的根源在于,现有的大多数多示例学习(MIL)方法虽然能够有效利用幻灯片级别的标签进行分类,但在空间定位能力上存在明显不足。特别是基于注意力机制的表示级聚合方法(RAMIL),其生成的注意力图往往只能进行定性解释,难以实现精准的空间定量分析。医生和研究人员迫切需要一种既能准确分类又能精确定量的方法,从而真正指导临床诊断和生物标志物发现。
在这项发表于《Nature Cancer》的研究中,研究人员从理论层面深入分析了不同MIL方法的注意力分配机制,提出了创新的SMMILe框架。该框架巧妙地将实例级多示例学习(IAMIL)的优势与自定义模块相结合,在六个癌症类型(包括肺癌、肾癌、卵巢癌、乳腺癌、胃癌和前列腺癌)的八个数据集上进行了全面验证,涵盖了转移检测、亚型预测和分级等关键病理学任务。
研究团队首先通过数学定理证明了实例级聚合模型在空间定量方面的优势,然后设计了针对性的合成实验验证理论发现。在此基础上开发的SMMILe方法包含五个核心模块:幻灯片预处理、一致性约束、无参数实例丢弃、去局部化实例采样以及基于马尔可夫随机场(MRF)的实例优化。这些模块共同作用,有效解决了IAMIL方法存在的注意力图偏斜问题。
在技术方法层面,研究人员使用了两种不同的特征提取器:ImageNet预训练的ResNet-50和病理学基础模型Conch。通过五折交叉验证,在八个包含3,850张WSI的数据集上,系统比较了SMMILe与九种现有方法的性能差异。特别值得关注的是,研究不仅评估了WSI级别的分类性能,还首次对空间定量能力进行了全面量化分析。
WSI分类性能
使用ImageNet预训练的ResNet-50编码器时,SMMILe在所有数据集上的宏观AUC值均优于对比方法。在卵巢癌、前列腺癌和胃镜数据集上,SMMILe的AUC值分别达到94.11%、90.92%和92.75%,较次优方法分别领先2.20%、2.90%和11.18%。当使用病理学基础模型Conch时,所有方法的性能都得到显著提升,在二分类和多分类任务中多数方法的AUC值超过97%,而SMMILe仍保持竞争优势。
空间定量能力
在更具挑战性的空间定量评估中,SMMILe展现出明显优势。使用ResNet-50编码器时,其在几乎所有数据集上的空间AUC值都达到或接近90%。在乳腺癌和胃镜数据集上,SMMILe的空间F1分数较次优方法高出20%以上;在胃癌和前列腺癌数据集上领先超过15%;在肺癌、肾癌-3、肾癌-4和卵巢癌数据集上领先近10%。即使用上强大的病理学基础模型,SMMILe仍保持显著优势,其空间定量结果在视觉上几乎与真实标注无法区分。
模块贡献分析
深入的消融实验揭示了每个模块的重要性。一致性约束模块显著提升了包含正常类别数据集的WSI分类性能,而无参数实例丢弃和去局部化实例采样模块则共同改善了空间定量能力。实例优化网络通过自训练策略和伪标签学习,在不同WSI间建立了统一的决策边界,而MRF约束则进一步提升了预测的空间连贯性。
注释精度影响
研究人员还专门探讨了注释精度对空间定量评估的影响。通过病理医生对争议性斑块的重新审核,发现尽管存在少量边界病例和亚型过渡区域的标注挑战,但整体影响有限,进一步验证了SMMILe结果的可靠性。
这项研究的突破性意义在于,首次系统性地解决了数字病理学中空间定量的核心难题。SMMILe不仅为病理诊断提供了可靠的可视化工具,支持人工智能的可解释性,更重要的是为病理表型的定量分析开辟了新途径。通过精确的空间定量,研究人员能够深入探索不同病理表型比例与患者治疗反应或预后评估的关系,为生物标志物发现和精准医疗提供强大支持。
未来,这种空间定量框架有望在免疫组化或基因组生物标志物的空间预测、以及空间分辨率测序数据验证等更高级挑战中发挥更大价值。随着病理学基础模型的不断进步和标注标准的进一步完善,SMMILe为代表的空间定量方法将在临床病理学研究和实践中扮演越来越重要的角色。
研究的局限性主要在于当前评估仍集中在传统计算病理学任务,且空间定量受到斑块大小和标签定义标准的影响。然而,这些挑战恰恰指明了未来研究的方向——向更复杂的多标签分类、更精细的空间预测以及更大规模的多中心验证推进。
总之,SMMILe框架的提出标志着数字病理学从单纯的图像分类迈向精准空间定量的重要转折点,为下一代病理学人工智能工具的发展奠定了坚实基础。这项研究不仅提供了技术解决方案,更重要的是建立了一套完整的评估标准和方法论框架,将推动整个领域向更可靠、可解释、可量化的方向发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有