在体积医学成像中,一个有效的分割模型应同时保留精细的局部解剖细节和捕捉长距离的空间依赖关系[1]、[2]、[3]。然而,对于具有复杂解剖变化的高分辨率3D数据来说,实现这种平衡仍然具有挑战性,现有方法往往倾向于局部细节建模或全局上下文聚合。基于CNN的模型提供了强大的局部表示能力,并保留了有用的解剖归纳偏见,但其有限的感受野使得捕捉对解释大型器官或分散病变至关重要的远距离空间依赖关系变得困难[4]、[5]、[6]、[7]。与基于CNN的方法相比,Transformer通常表现出较弱的局部归纳偏见,并且对数据规模和优化设置更为敏感,这增加了它们对大规模预训练的依赖性,尽管标注的3D医学数据相对较少[8]、[9]。因此,它们可能无法一致地保留稳定划分小型、低对比度或形态不规则目标所需的细微局部线索。此外,自注意力在体积输入上会产生大量的计算和内存开销,限制了基于Transformer的模型在3D临床应用中的实用性。
最近,Mamba及相关状态空间模型作为医学图像分割中长距离依赖关系建模的有希望的替代方案出现[10]、[11]。通过用状态空间公式替换穷举式的成对自注意力,Mamba提供了一种更可扩展的方式来在体积特征之间传播上下文信息,同时保持结构连续性。然而,大多数现有的基于Mamba的分割方法主要将Mamba作为骨干网络或全局上下文模块使用,而对编码器各阶段的不同表示需求关注较少,特别是在早期高分辨率层需要保留细节和深层需要更广泛的语义上下文聚合方面[12]、[13]、[14]。
为了解决这些限制,我们提出了MambaClinix,这是一种自适应的分阶段框架,用于3D医学图像分割,它结合了分层门控卷积(HGCN)建模和基于Mamba的长距离依赖关系建模。具体来说,HGCN用于早期编码器阶段以增强局部和高阶空间交互,而在后期阶段引入残差Mamba块来建模语义更丰富的特征上的长距离依赖关系。此外,MambaClinix继承了nnU-Net的自配置策略,并结合了区域特定的Tversky损失函数,在训练过程中强调难点子区域。
本工作的主要贡献有三个方面。首先,我们提出了MambaClinix,这是一个分阶段的混合框架,将HGCN分配到早期高分辨率阶段进行精细的局部交互建模,将残差Mamba块分配到后期低分辨率阶段进行高效的长距离依赖关系聚合,明确匹配每个阶段的表示需求。其次,我们设计了一种分层门控卷积模块,通过分层叠加聚合过程来建模高阶空间交互,该过程专为体积医学特征量身定制。第三,我们结合了区域特定的自适应Tversky损失函数,以在具有挑战性的临床场景中优化难点子区域的优化效果。在五个基准数据集上的广泛实验进一步验证了所提出框架的有效性和鲁棒性。