通过具有可学习对称性的Attention-enhanced Mamba算法进行医学图像分割，并进行了基准测试

生物通首页 > 今日动态 > 正文

通过具有可学习对称性的Attention-enhanced Mamba算法进行医学图像分割，并进行了基准测试

时间：2026年4月8日

来源：Pattern Recognition

编辑推荐：

中文医学图像分割领域提出基于对称扫描机制和注意力增强的Mamba模型ASyMnet，通过自适应解剖对称轴分解图像特征，结合四方向扫描和全局注意力机制，显著提升复杂重叠结构分割精度，并在LaXAS等三个数据集验证有效性。

赵晓伟|李成龙|唐金|李传福

安徽大学人工智能学院，中国合肥230601

摘要

近年来，深度学习在医学图像分割领域展现了强大的潜力并日益显示出临床应用价值。然而，由于医学图像中解剖结构的形状、纹理和对比度存在显著差异，这一任务仍然具有挑战性。尽管卷积神经网络（CNN）和变换器（Transformers）被广泛使用，但它们面临诸如接收域有限和高计算成本等问题。最近，像Mamba这样的状态空间模型受到了关注，但由于采用了一维序列处理方式，在处理复杂且不规则的医学结构时仍存在困难。为了解决这些问题，我们提出了一种新型的注意力增强型Mamba模型，该模型结合了可学习的对称扫描机制网络（ASyMnet）。ASyMnet利用解剖结构的对称性来简化密集区域，并动态聚焦于不同结构。此外，我们还引入了一个注意力增强型状态空间模块（AESM）以丰富全局上下文表示。同时，我们提供了一个新的胸部X光分割数据集（LaXAS），其中包含6289张标注图像，涵盖了32种解剖结构。在LaXAS、CXRS和Synapse数据集上的实验表明，ASyMnet在指标和视觉质量方面均表现出色。代码可在以下链接获取：https://github.com/XWei98/ASyMnet。

引言

医学图像分割[1]、[2]旨在在像素级别勾画出解剖结构或病理区域，从而为临床决策（如疾病诊断[3]和治疗计划[4]）提供精确的医学图像解释。在常见的成像方式中，胸部X光（CXR）和计算机断层扫描（CT）因其易于获取、快速成像和相对较低的成本而被广泛采用。在这种情况下，解剖结构分割[5]是下游分析的基本前提：它提供了器官和骨骼的结构化、定量描述，支持自动化测量和异常定位（如畸形、大小变化和形状不规则），并提高了后续病变检测的可解释性和可靠性。此外，分割后的解剖结构作为稳定的空间标志，使临床医生能够根据周围解剖结构定位疑似病变，并便于在不同患者或随访扫描之间进行比较。

然而，医学图像的独特特性和结构属性给解剖结构分割带来了重大挑战。在胸部X光（CXR）中，组织重叠和器官密度变化使得清晰区分器官边界变得困难。尽管CT提供了高分辨率的横截面图像，但仍存在噪声和软组织之间的对比度低的问题，导致边缘模糊和信噪比低，如图1-(a)第二行所示。此外，CXR图像包含多种解剖结构（涵盖六个类别和32个组成部分），这些结构在二维空间中经常重叠。这种结构复杂性使得准确区分和定位每个部分变得困难，如图1-(c)第一行所示。因此，开发出能够处理这种复杂性的强大高效的分割方法对于临床应用至关重要。

随着深度学习[6]、[7]的进步，基于深度学习的医学图像分割技术得到了蓬勃发展。传统的医学图像分割方法（如UNet[8]）主要基于CNN，它们提供了强大的非线性表示和细粒度特征提取能力。尽管基于CNN的模型[9]、[10]有所进步，但由于主要受限于局部接收域，难以捕捉复杂医学成像场景中的长距离依赖关系。为了解决这个问题，一些方法（如[11]）引入了注意力机制和多尺度特征，但其性能仍不尽如人意。视觉变换器（ViTs）因其强大的全局建模能力而被引入，但其高计算成本限制了效率，尤其是在处理高分辨率图像时。为了解决这些限制，选择性状态空间模型（如Mamba[12]）作为一种有前景的替代方案出现，通过输入依赖的状态空间机制压缩上下文，结合了线性计算复杂性和全局接收域。然而，当应用于信噪比低且边界模糊的CXR和CT图像时，基于Mamba的方法[13]在分割精度上仍存在问题，如图1-(b)和(d)所示。特别是如图1-Vision Mamba Scan所示，Mamba的顺序扫描策略将二维特征线性化为了一维序列，并压缩了全局上下文。当CXR投影中的解剖类别众多且交错严重时，顺序处理流程容易将相邻但语义不同的结构的信号耦合在一起，因此小的局部错误可能会沿着序列传播并放大。这一特性使得在拥挤区域保持清晰的类别分离变得困难，从而降低了边界清晰度并增加了误分类的概率。

考虑到上述问题，我们提出了一种注意力增强型Mamba模型，该模型结合了可学习的对称扫描机制网络（ASyMnet）。具体来说，如图1-(e)所示，我们利用了许多解剖结构固有的对称性，并引入了可学习的对称扫描机制（LSSM）来克服单顺序处理的局限性。LSSM不是沿固定方向压缩全局上下文，而是学习一个对称轴

α

，以适应地将特征图分解为两个对称的部分，如图1-Ours所示。这种基于对称性的解耦允许通过对每一半进行四方向扫描来实现并行且结构一致的上下文聚合，从而大大减少了纯顺序建模导致的误差累积，尤其是在包含许多细小、不规则且交错密集类别的CXR图像中。然后通过对解耦后的两部分分别进行四方向扫描来进行上下文建模，这有助于应对解剖类别的多样性、数量和异质性所带来的挑战。此外，为了进一步增强依赖于顺序扫描的Mamba模型，我们提出了注意力增强型状态空间模块（AESM）。该模块将自注意力的全局交互机制整合到原始Mamba框架中，使其能够从互补的角度建模全局上下文。总之，我们的贡献如下：

(1)
我们提出了一种可学习的对称扫描机制，该机制利用了解剖结构中的自然对称性，能够将特征适应性地分解为对称部分，并进行多方向上下文建模，有助于应对高解剖异质性和结构重叠带来的挑战。
(2)
我们设计了一个注意力增强型状态空间模块，以提高Mamba的全局上下文建模能力。通过将自注意力整合到状态空间公式中，并将AESM嵌入到跳跃连接中，我们的方法能够捕捉丰富的多尺度解剖表示，从而提高分割精度。
(3)
我们提供了一个大规模的CXR图像解剖结构分割数据集（LaXAS），其中包含6289张CXR图像。对于每张CXR图像，我们为32种解剖结构提供了像素级别的专家标注。
(4)
我们在LaXAS、Synapse和CXRS数据集上进行了广泛的实验。评估指标和可视化结果表明，我们的方法达到了最先进的性能。
(5)
我们的方法在三个基准测试中均取得了可测量的性能提升：在LaXAS上，32类解剖结构的分割准确率（mIoU）提高了1.19%，在CXRS上提高了0.86%；在腹部CT数据集Synapse上进一步提高了2.52%。

部分摘录

医学图像分割

由于临床应用中对准确高效分析的需求不断增长，医学图像分割技术取得了显著进步。深度学习方法，特别是卷积神经网络（CNN）[14]，极大地提升了分割性能。最早的显著贡献之一是全卷积网络（FCN）[15]，其性能优于传统方法。然而，医学图像通常存在噪声、边界模糊和细节缺失的问题。

概述

如图2(a)所示，我们的ASyMnet框架基于U形编码器-解码器架构。它主要包含了视觉对称解耦状态空间块（V3SBlock），旨在利用CXR图像中解剖结构的固有对称性，以及基于自注意力机制的注意力增强型状态空间模块（AESM）。首先，原始CXR图像经过补丁嵌入生成初始特征图，然后将其输入编码器。

LaXAS数据集概述

胸部X光（CXR）图像因其便捷性、低成本和低辐射暴露而广泛用于诊断各种胸部相关疾病。准确分割骨骼、肺部和心脏等结构可以显著提高自动化诊断、疾病量化和治疗计划的效率。因此，开发专门的CXR图像解剖结构分割数据集对于提高医疗诊断的准确性和效率至关重要。

实验

为了全面验证我们方法的有效性，我们在提出的LaXAS数据集上进行了比较实验，并将评估扩展到另外两个解剖结构分割数据集：CXRS[5]数据集和Synapse[33]数据集。

局限性分析

虽然提出的ASyMnet有效地利用了对称性感知建模在多个基准测试中取得了最先进的性能，但仍存在一些局限性，需要进一步讨论并为未来的研究指明方向。

首先，尽管可学习的对称扫描机制（LSSM）能够灵活适应每张图像的对称轴，但它本质上受限于其对双边对称性和四方向顺序扫描的依赖。虽然这种设计能够捕捉全局信息

结论

在本文中，我们提出了一种新型的注意力增强型Mamba模型，该模型结合了可学习的对称扫描机制网络（ASyMnet）用于医学图像分割。我们的方法包括两个关键组成部分。首先，我们利用解剖结构的自然对称性设计了可学习的对称扫描机制（LSSM），以应对医学图像的复杂性和异质性。其次，我们引入了注意力增强型状态空间模块（AESM），以捕捉不同部分之间的丰富全局上下文。