00289H-DCA Net：一种用于多尺度胃组织病理学诊断的分层双分支坐标注意力框架

时间：2026年2月16日

来源：Pathology - Research and Practice

编辑推荐：

针对胃癌病理诊断中宏观与微观特征整合的尺度不匹配问题，提出H-DCA Net框架，通过异构双分支（EfficientNetV2-S与MobileNetV3-L）结合分层注意力机制，在GasHisSDB等数据集上实现高精度分类（最高99.27%），优于传统单分支及复杂混合模型，并提升小视野下的诊断效率。

作者：李长宇 | 刘伟

单位：南京信息科技大学，中国南京

摘要

背景与目标

胃癌的早期和准确诊断对于改善患者预后至关重要。然而，传统的组织病理学诊断受到主观性和效率低下的限制。目前的计算机辅助诊断（CAD）系统常常面临“尺度不匹配”的问题，无法同时整合宏观组织结构和微观细胞细节。为了解决这一瓶颈，本研究旨在开发一种新的深度学习框架H-DCA Net，该框架模仿病理学家的多尺度诊断工作流程，以提高胃癌分类的准确性和可靠性。

方法

我们提出了分层双分支坐标注意力网络（H-DCA Net），该框架具有两个异构分支。一个高级语义分支（基于EfficientNetV2-S和Efficient Channel Attention）捕获全局组织级模式，而一个局部细节分支（基于MobileNetV3-L和Coordinate Attention）专注于细粒度细胞特征。这些互补特征通过分层注意力机制进行整合。该模型在公共的GasHisSDB数据集上进行了训练和验证，使用了三种不同的图像块大小（80×80、120×120和160×160像素），并采用了独立的测试集策略。

结果

H-DCA Net在多个尺度上表现出高度竞争力。具体来说，在120×子数据集上，模型的准确率为99.27%，精确率为99.3%，灵敏度为99.2%，特异性为99.4%。在160×（准确率：99.04%，灵敏度：99.2%，特异性：98.9%）和80×（准确率：98.62%，灵敏度：98.6%，特异性：98.6%）上也观察到了高性能。比较分析确认H-DCA Net优于或等同于最先进的单分支、双分支和混合架构，特别是在视野有限的场景中（例如80×）表现尤为突出。

结论

所提出的H-DCA Net通过其协同的双分支架构和分层注意力机制，有效地整合了多尺度病理信息。它作为一个高精度的基础，为高效的、可靠的、可解释的辅助工具提供了支持，有助于自动化胃癌筛查，并在提高工作流程效率的同时减少诊断的主观性。

引言

胃癌是一种常见且侵袭性的恶性肿瘤，对全球健康构成重大威胁，是癌症相关发病率和死亡率的主要原因之一[1]。其临床预后在很大程度上取决于诊断的时机。流行病学研究表明，早期（T1）患者的五年生存率可超过90%，而在晚期（III/IV）诊断的患者中这一比例骤降至30%以下[2]。这种差异凸显了迫切需要能够客观准确地识别癌前病变和早期癌症的技术。

目前胃癌诊断的“金标准”是由病理学家对H&E染色的全切片图像（WSIs）进行组织病理学评估[3]。然而，这一手动过程既费力又耗时。此外，其高度主观性体现在早期胃癌诊断的观察者间一致性率高达35%[5]。效率与可靠性之间的这种冲突凸显了强大的、高效的智能计算机辅助诊断（CAD）系统的临床紧迫性[4]、[5]。

在这种情况下，深度学习，特别是卷积神经网络（CNNs），彻底改变了医学图像分析[6]。CNNs可以自主捕获从局部纹理到全局组织结构的多尺度特征，模拟病理学家的认知工作流程[7]、[8]。这一工作流程通常包括多尺度分析过程：病理学家首先在低放大倍数下（宏观视图）扫描切片以识别结构异常，然后切换到高放大倍数（微观视图）检查细胞形态以寻找恶性特征。

这种认知转变揭示了标准单分支CNN架构（如ResNet和DenseNet）的根本局限性。这些模型难以在单一框架内模拟这种协同的多尺度分析；它们要么专注于全局特征而牺牲细胞细节，要么反之亦然。这种固有的结构缺陷导致了“尺度不匹配”问题，形成了一个重要的研究空白。因此，需要一个统一、高效且可解释的框架来协同整合多尺度的病理特征。

为了解决这一“尺度不匹配”问题，研究界探索了几种途径。最初的努力集中在对标准架构（如VGG16和ResNet-50）进行基准测试和微调，这些架构在与迁移学习结合时建立了强大的性能基线[9]。其他研究探索了融合来自不同感受野的特征或从头开始训练自定义的轻量级CNN[10]、[11]。虽然这些努力奠定了坚实的基础，但也表明简单的架构修改不足以克服单分支设计的固有尺度限制。

因此，引入了注意力机制来引导网络关注关键区域。早期方法涉及复杂的多阶段流程，例如在分类之前对“注意力区域”进行预分割[12]。更近期的方法侧重于设计复杂的集成注意力模块，如HCCANet[13]，或验证标准模块（如Squeeze-and-Excitation Network (SE-Net)的有效性[14]。尽管有效，但这些自定义设计往往增加了架构复杂性和计算成本，这促使人们寻找具有内置注意力功能的新基础架构。

这一需求与视觉Transformer（ViT）的兴起相吻合，后者提供了强大的全局上下文建模能力。研究沿着两条主要路径进展：改进纯Transformer架构和设计CNN-Transformer混合体。例如，CSF-Transformer证明了在纯Transformer内进行复杂的多尺度融合可以有效应对多尺度挑战[15]。然而，当前的主流方法是使用混合模型，如双分支DCET-Net，它利用Transformer将全局信息注入并行ResNet分支，以弥补CNN在全局上下文建模方面的不足[16]。这些基于Transformer的工作标志着一个重要的进化，将注意力机制提升到了全局建模的水平。

在医学图像分析的更广泛领域中，架构也有了显著发展。先进的CNN（如SAFP-Net[17]）被提出，通过优化特征提取来增强微妙特征的检测。为了进一步捕获全局依赖性，混合模型（如ADCFormer[18]）集成了自适应卷积和自注意力机制。最近，状态空间模型（SSMs）因其线性复杂性而受到关注；特别是SSR-Mam2MIL[19]将Mamba2框架应用于计算病理学，展示了在处理千兆像素全切片图像方面的卓越效率。

具体来说，在胃癌和胃肠道病理学领域，最近发表在《Pathology - Research and Practice》上的研究也强调了计算方法在形态分析中的实用性。例如，Martos等人专注于胃癌图像中核的优化检测和分割，强调了染色规范化和伪影去除在确保诊断准确性方面的关键作用[20]。此外，Dong等人提出了一个用于胃肠道间质肿瘤（GIST）的可解释机器学习框架，该框架利用多尺度方法和SHAP分析来使模型的决策与病理学家的诊断标准保持一致[21]。

尽管取得了这些有希望的进展，但有效整合宏观组织结构和微观细胞细节——“尺度不匹配”问题”仍然是一个关键瓶颈，特别是在创建一个既高度准确又在临床上可解释的端到端框架方面。因此，本文提出了分层双分支坐标注意力网络（H-DCA Net），这是一个专门为胃癌组织病理学图像分类设计的新框架。我们的方法基于异构双分支结构构建，旨在在单一端到端模型中有机整合高精度、效率和可解释性。目标是在避免计算冗余的同时，实现与复杂集成模型相当的性能。

本文的主要贡献如下：

(1)
异构双分支架构：我们引入了一种模仿病理学家工作流程的新网络。一个全局分支（EfficientNetV2-S）捕获组织级结构，而一个局部分支（MobileNetV3-Large）专注于细胞细节。这种并行设计通过协同整合宏观和微观特征，实现了更准确的分类。
(2)
分层注意力机制：提出了一种特定任务的注意力策略。全局分支使用Efficient Channel Attention (ECA)选择有信息量的组织模式，而局部分支使用Coordinate Attention (CA)精确定位关键细胞区域。这增强了模型在每个尺度上对诊断相关特征的关注。
(3)
最先进的性能和稳健的验证：通过在公共的GasHisSDB数据集上的广泛实验，我们的H-DCA Net展示了卓越的性能，准确率高达99.27%。Ablation研究和在TCGA数据集上的进一步验证严格证实了我们提出的架构和注意力机制的有效性和强大的泛化能力。

数据集片段

数据集

本研究的实验验证基于公开可用的胃癌组织病理学图像数据集GasHisSDB[22]。该数据集是一个高分辨率的病理图像集合，专门为胃癌研究构建。它由600张20倍放大的全切片图像（WSIs）组成，共计245,196个图像块。所有图像都经过苏木精和伊红（H&E）染色，并由病理专家进行注释，明确分类

实验设置

所有实验都在配备Intel Core i5-13600KF CPU、16GB RAM和NVIDIA GeForce RTX 4060Ti GPU的工作站上进行。模型使用PyTorch 2.1.0框架实现。训练时，我们采用了AdamW优化器和二元交叉熵（BCE）损失函数。初始学习率设置为0.0004，权重衰减为0.05。我们使用批量大小为32对所有模型进行了最多100个周期的训练。为了防止过拟合，采用了提前停止策略

消融实验

我们的消融研究探讨了一个关键问题：双分支架构和分层注意力策略是否真的不可或缺？我们在80×80子数据集上进行了测试，其中模型必须在细粒度细节和更广泛的上下文之间取得平衡。

表5中的结果清楚地证实了每个组件的关键作用。首先，将单分支模型（A/B）与无注意力的双分支模型（D）进行比较，显示出两种异构主干的基本整合

结论

在这项研究中，我们提出了H-DCA Net，这是一种分层双分支注意力框架，旨在解决自动化胃癌组织病理学诊断中的“尺度不匹配”挑战。通过协同整合全局语义分支（EfficientNetV2-S和ECA）和局部细节分支（MobileNetV3-Large和CA），该模型有效地模仿了病理学家的多尺度认知工作流程。在GasHisSDB数据集上的广泛实验表明，H-DCA Net实现了