医学图像分割[1]、[2]旨在在像素级别勾画出解剖结构或病理区域,从而为临床决策(如疾病诊断[3]和治疗计划[4])提供精确的医学图像解释。在常见的成像方式中,胸部X光(CXR)和计算机断层扫描(CT)因其易于获取、快速成像和相对较低的成本而被广泛采用。在这种情况下,解剖结构分割[5]是下游分析的基本前提:它提供了器官和骨骼的结构化、定量描述,支持自动化测量和异常定位(如畸形、大小变化和形状不规则),并提高了后续病变检测的可解释性和可靠性。此外,分割后的解剖结构作为稳定的空间标志,使临床医生能够根据周围解剖结构定位疑似病变,并便于在不同患者或随访扫描之间进行比较。
然而,医学图像的独特特性和结构属性给解剖结构分割带来了重大挑战。在胸部X光(CXR)中,组织重叠和器官密度变化使得清晰区分器官边界变得困难。尽管CT提供了高分辨率的横截面图像,但仍存在噪声和软组织之间的对比度低的问题,导致边缘模糊和信噪比低,如图1-(a)第二行所示。此外,CXR图像包含多种解剖结构(涵盖六个类别和32个组成部分),这些结构在二维空间中经常重叠。这种结构复杂性使得准确区分和定位每个部分变得困难,如图1-(c)第一行所示。因此,开发出能够处理这种复杂性的强大高效的分割方法对于临床应用至关重要。
随着深度学习[6]、[7]的进步,基于深度学习的医学图像分割技术得到了蓬勃发展。传统的医学图像分割方法(如UNet[8])主要基于CNN,它们提供了强大的非线性表示和细粒度特征提取能力。尽管基于CNN的模型[9]、[10]有所进步,但由于主要受限于局部接收域,难以捕捉复杂医学成像场景中的长距离依赖关系。为了解决这个问题,一些方法(如[11])引入了注意力机制和多尺度特征,但其性能仍不尽如人意。视觉变换器(ViTs)因其强大的全局建模能力而被引入,但其高计算成本限制了效率,尤其是在处理高分辨率图像时。为了解决这些限制,选择性状态空间模型(如Mamba[12])作为一种有前景的替代方案出现,通过输入依赖的状态空间机制压缩上下文,结合了线性计算复杂性和全局接收域。然而,当应用于信噪比低且边界模糊的CXR和CT图像时,基于Mamba的方法[13]在分割精度上仍存在问题,如图1-(b)和(d)所示。特别是如图1-Vision Mamba Scan所示,Mamba的顺序扫描策略将二维特征线性化为了一维序列,并压缩了全局上下文。当CXR投影中的解剖类别众多且交错严重时,顺序处理流程容易将相邻但语义不同的结构的信号耦合在一起,因此小的局部错误可能会沿着序列传播并放大。这一特性使得在拥挤区域保持清晰的类别分离变得困难,从而降低了边界清晰度并增加了误分类的概率。
考虑到上述问题,我们提出了一种注意力增强型Mamba模型,该模型结合了可学习的对称扫描机制网络(ASyMnet)。具体来说,如图1-(e)所示,我们利用了许多解剖结构固有的对称性,并引入了可学习的对称扫描机制(LSSM)来克服单顺序处理的局限性。LSSM不是沿固定方向压缩全局上下文,而是学习一个对称轴,以适应地将特征图分解为两个对称的部分,如图1-Ours所示。这种基于对称性的解耦允许通过对每一半进行四方向扫描来实现并行且结构一致的上下文聚合,从而大大减少了纯顺序建模导致的误差累积,尤其是在包含许多细小、不规则且交错密集类别的CXR图像中。然后通过对解耦后的两部分分别进行四方向扫描来进行上下文建模,这有助于应对解剖类别的多样性、数量和异质性所带来的挑战。此外,为了进一步增强依赖于顺序扫描的Mamba模型,我们提出了注意力增强型状态空间模块(AESM)。该模块将自注意力的全局交互机制整合到原始Mamba框架中,使其能够从互补的角度建模全局上下文。总之,我们的贡献如下:
- (1)
我们提出了一种可学习的对称扫描机制,该机制利用了解剖结构中的自然对称性,能够将特征适应性地分解为对称部分,并进行多方向上下文建模,有助于应对高解剖异质性和结构重叠带来的挑战。
- (2)
我们设计了一个注意力增强型状态空间模块,以提高Mamba的全局上下文建模能力。通过将自注意力整合到状态空间公式中,并将AESM嵌入到跳跃连接中,我们的方法能够捕捉丰富的多尺度解剖表示,从而提高分割精度。
- (3)
我们提供了一个大规模的CXR图像解剖结构分割数据集(LaXAS),其中包含6289张CXR图像。对于每张CXR图像,我们为32种解剖结构提供了像素级别的专家标注。
- (4)
我们在LaXAS、Synapse和CXRS数据集上进行了广泛的实验。评估指标和可视化结果表明,我们的方法达到了最先进的性能。
- (5)
我们的方法在三个基准测试中均取得了可测量的性能提升:在LaXAS上,32类解剖结构的分割准确率(mIoU)提高了1.19%,在CXRS上提高了0.86%;在腹部CT数据集Synapse上进一步提高了2.52%。