胃癌是一种常见且侵袭性的恶性肿瘤,对全球健康构成重大威胁,是癌症相关发病率和死亡率的主要原因之一[1]。其临床预后在很大程度上取决于诊断的时机。流行病学研究表明,早期(T1)患者的五年生存率可超过90%,而在晚期(III/IV)诊断的患者中这一比例骤降至30%以下[2]。这种差异凸显了迫切需要能够客观准确地识别癌前病变和早期癌症的技术。
目前胃癌诊断的“金标准”是由病理学家对H&E染色的全切片图像(WSIs)进行组织病理学评估[3]。然而,这一手动过程既费力又耗时。此外,其高度主观性体现在早期胃癌诊断的观察者间一致性率高达35%[5]。效率与可靠性之间的这种冲突凸显了强大的、高效的智能计算机辅助诊断(CAD)系统的临床紧迫性[4]、[5]。
在这种情况下,深度学习,特别是卷积神经网络(CNNs),彻底改变了医学图像分析[6]。CNNs可以自主捕获从局部纹理到全局组织结构的多尺度特征,模拟病理学家的认知工作流程[7]、[8]。这一工作流程通常包括多尺度分析过程:病理学家首先在低放大倍数下(宏观视图)扫描切片以识别结构异常,然后切换到高放大倍数(微观视图)检查细胞形态以寻找恶性特征。
这种认知转变揭示了标准单分支CNN架构(如ResNet和DenseNet)的根本局限性。这些模型难以在单一框架内模拟这种协同的多尺度分析;它们要么专注于全局特征而牺牲细胞细节,要么反之亦然。这种固有的结构缺陷导致了“尺度不匹配”问题,形成了一个重要的研究空白。因此,需要一个统一、高效且可解释的框架来协同整合多尺度的病理特征。
为了解决这一“尺度不匹配”问题,研究界探索了几种途径。最初的努力集中在对标准架构(如VGG16和ResNet-50)进行基准测试和微调,这些架构在与迁移学习结合时建立了强大的性能基线[9]。其他研究探索了融合来自不同感受野的特征或从头开始训练自定义的轻量级CNN[10]、[11]。虽然这些努力奠定了坚实的基础,但也表明简单的架构修改不足以克服单分支设计的固有尺度限制。
因此,引入了注意力机制来引导网络关注关键区域。早期方法涉及复杂的多阶段流程,例如在分类之前对“注意力区域”进行预分割[12]。更近期的方法侧重于设计复杂的集成注意力模块,如HCCANet[13],或验证标准模块(如Squeeze-and-Excitation Network (SE-Net)的有效性[14]。尽管有效,但这些自定义设计往往增加了架构复杂性和计算成本,这促使人们寻找具有内置注意力功能的新基础架构。
这一需求与视觉Transformer(ViT)的兴起相吻合,后者提供了强大的全局上下文建模能力。研究沿着两条主要路径进展:改进纯Transformer架构和设计CNN-Transformer混合体。例如,CSF-Transformer证明了在纯Transformer内进行复杂的多尺度融合可以有效应对多尺度挑战[15]。然而,当前的主流方法是使用混合模型,如双分支DCET-Net,它利用Transformer将全局信息注入并行ResNet分支,以弥补CNN在全局上下文建模方面的不足[16]。这些基于Transformer的工作标志着一个重要的进化,将注意力机制提升到了全局建模的水平。
在医学图像分析的更广泛领域中,架构也有了显著发展。先进的CNN(如SAFP-Net[17])被提出,通过优化特征提取来增强微妙特征的检测。为了进一步捕获全局依赖性,混合模型(如ADCFormer[18])集成了自适应卷积和自注意力机制。最近,状态空间模型(SSMs)因其线性复杂性而受到关注;特别是SSR-Mam2MIL[19]将Mamba2框架应用于计算病理学,展示了在处理千兆像素全切片图像方面的卓越效率。
具体来说,在胃癌和胃肠道病理学领域,最近发表在《Pathology - Research and Practice》上的研究也强调了计算方法在形态分析中的实用性。例如,Martos等人专注于胃癌图像中核的优化检测和分割,强调了染色规范化和伪影去除在确保诊断准确性方面的关键作用[20]。此外,Dong等人提出了一个用于胃肠道间质肿瘤(GIST)的可解释机器学习框架,该框架利用多尺度方法和SHAP分析来使模型的决策与病理学家的诊断标准保持一致[21]。
尽管取得了这些有希望的进展,但有效整合宏观组织结构和微观细胞细节——“尺度不匹配”问题”仍然是一个关键瓶颈,特别是在创建一个既高度准确又在临床上可解释的端到端框架方面。因此,本文提出了分层双分支坐标注意力网络(H-DCA Net),这是一个专门为胃癌组织病理学图像分类设计的新框架。我们的方法基于异构双分支结构构建,旨在在单一端到端模型中有机整合高精度、效率和可解释性。目标是在避免计算冗余的同时,实现与复杂集成模型相当的性能。
本文的主要贡献如下:
- (1)
异构双分支架构:我们引入了一种模仿病理学家工作流程的新网络。一个全局分支(EfficientNetV2-S)捕获组织级结构,而一个局部分支(MobileNetV3-Large)专注于细胞细节。这种并行设计通过协同整合宏观和微观特征,实现了更准确的分类。
- (2)
分层注意力机制:提出了一种特定任务的注意力策略。全局分支使用Efficient Channel Attention (ECA)选择有信息量的组织模式,而局部分支使用Coordinate Attention (CA)精确定位关键细胞区域。这增强了模型在每个尺度上对诊断相关特征的关注。
- (3)
最先进的性能和稳健的验证:通过在公共的GasHisSDB数据集上的广泛实验,我们的H-DCA Net展示了卓越的性能,准确率高达99.27%。Ablation研究和在TCGA数据集上的进一步验证严格证实了我们提出的架构和注意力机制的有效性和强大的泛化能力。