RA2M-UNet：通过重新参数化的卷积、双域注意力机制和二维状态空间建模实现高效的医学图像分割

生物通首页 > 今日动态 > 正文

RA2M-UNet：通过重新参数化的卷积、双域注意力机制和二维状态空间建模实现高效的医学图像分割

时间：2026年2月7日

来源：Biomedical Signal Processing and Control

编辑推荐：

医学图像分割中，RA2M-UNet通过多尺度膨胀卷积与改进的2D-SSM模块融合特征，结合结构重参数化和多输出监督机制，有效平衡分割精度与计算效率，实验表明其优于现有方法且参数高效。

赵超|杨磊|张赛|段洪亮|郭静静

中国澳门特别行政区澳门理工学院应用科学学院，人工智能驱动药物发现中心

摘要

深度学习在各个领域取得了显著进展，尤其是在医学图像分割方面。然而，如何在准确性和计算效率之间取得平衡仍然是一个持续存在的挑战，因为当前的先进模型往往需要牺牲其中一个方面来提升另一个方面。在这里，我们提出了RA2M-UNet，这是一个通过关键创新解决这一权衡问题的新网络：（1）一个特征融合模块，它将多尺度膨胀卷积与2D选择性扫描模块（2D-SSM）相结合；（2）一个改进的2D-SSM，以更好地捕捉空间和语义依赖性；（3）参数效率高的结构重新参数化；（4）多输出监督，以实现更精细的分割。综合实验表明，我们的方法在保持参数效率的同时，性能优于现有方法，有效解决了医学图像分割中的准确性-效率困境。

引言

医学图像分割已成为计算机辅助诊断系统中的核心技术，在肿瘤检测、器官定位和手术规划等临床应用中展现出关键价值[1]、[2]、[3]。深度学习的出现显著提高了分割准确性，卷积神经网络（CNN）如U-Net及其变体（例如，Attention U-Net、3D U-Net）发挥了重要作用[4]、[5]、[6]。基于这些进展，深度学习分割技术已广泛应用于各种医学领域。例如，Manoila等人[7]引入了smartMRI框架来评估多个CNN和超参数，同时提出了用于膝关节MRI分割的Pseudo3D GU-Net和高斯池化。在肺部CT成像中，Rezvani等人[8]开发了FusionLungNet，这是一个具有通道聚合注意力和残差精化的多尺度融合网络，用于处理模糊的组织边界和支气管血管重叠等问题。对于结直肠病理图像，Zhang等人[9]提出了SC-Net，这是一个具有多尺度特征提取块和特征映射层的对称圆锥形网络，有效解决了异构语义和上下文依赖性问题。

然而，这些深度学习方法的有效性受到大规模、高质量标注医学数据集稀缺的严重限制[10]。这一限制源于专家标注的高成本和时间需求，以及严格的隐私和伦理限制[11]。因此，数据不足已成为阻碍开发强大且临床可靠的分割模型的主要瓶颈。为了解决这个问题，研究人员探索了多种策略，包括迁移学习、半监督学习、少样本学习[12]、[13]、[14]。同时，一个根本性的挑战仍然存在：先进模型的高计算复杂性与医学硬件的有限处理能力之间的不匹配[15]。最近通过结合基于Transformer的框架取得了突破，这些框架利用全局注意力机制来建模长距离空间依赖性和语义关系。像TransUNet[16]和UNETR[17]这样的开创性工作表明，将CNN的层次特征提取与Transformer的全局上下文建模相结合，在多器官分割和脑肿瘤勾勒等任务中取得了更好的性能。尽管有这些进展，基于Transformer的方法仍面临固有的挑战：自注意力机制的二次计算复杂性导致参数数量和推理成本呈指数级增长，限制了它们在资源受限环境中的适用性[18]、[19]。

当前的研究通过两个主要途径寻求解决方案。首先，轻量级架构如MobileNet[20]、ShuffleNet[21]和EfficientNet[22]采用深度可分离卷积和通道混合等技术来降低计算成本。然而，它们的特征表示能力对于复杂的医学成像模式（特别是在低对比度超声或多模态MRI数据的情况下）仍然不足[23]、[24]、[25]。其次，模型压缩方法如知识蒸馏[26]和网络剪枝[27]可以有效减少参数数量，但可能会扭曲模型的原始拓扑结构，可能导致超出临床可接受阈值的准确性损失[28]。最近尝试将多尺度特征融合和空间-语义注意力机制结合起来进一步复杂化了这一局面，因为这样的增强通常会导致计算开销呈指数级增加，从而产生了新的“准确性-效率”悖论[29]、[30]。

为了解决这些挑战，本研究提出了基于结构重新参数化的自适应医学图像分割框架RA2M-UNet。我们的贡献如下：

特征融合模块：我们引入了一个特征融合模块（GA2M），它将多尺度膨胀卷积与2D选择性扫描模块（2D-SSM）相结合。该模块有效地捕获了细粒度细节和全局上下文信息，提高了分割性能，同时没有增加计算复杂性。

改进的2D-SSM：在传统2D-SSM设计的基础上，我们提出了一个改进版本（RA2M），更好地整合了空间和语义依赖性。这一改进使模型能够同时关注局部和全局特征，提高了复杂医学图像的分割准确性。

结构重新参数化：为了解决参数数量过多的问题，我们采用了结构重新参数化技术。这种方法使模型在显著减少参数数量的同时保持高性能，使其更适合在资源受限的设备上部署。

多输出监督：为了进一步细化模型的学习过程并提高分割准确性，我们采用了多输出监督。通过使用不同尺度的多个输出，模型能够更好地捕捉图像的多样方面，提高了其在各种医学成像任务中的泛化能力和鲁棒性。

通过这些创新，我们的算法在保持紧凑架构的同时实现了高分割准确性，使其非常适合计算资源有限的真实世界医学应用。

部分摘录

高效的注意力机制

注意力机制[31]在增强模型对视觉任务中关键特征的感知方面取得了显著成功，广泛应用于图像分割、物体检测等相关领域[32]、[33]。它们的核心优势在于动态分配权重，以放大对显著区域的关注，同时抑制无关信息的干扰。近年来出现了各种注意力变体，例如SENet（Squeeze-and-Excitation Network）[34]等

提出的RA2M-UNet模型概述

医学图像分割通常面临边界模糊、大尺度变化、结构异质性和长距离空间依赖性等问题，特别是在涉及低对比度成像、密集解剖结构和不规则病变形态的情景中。受这些挑战的启发，我们设计了RA2M-UNet，作为一个强调高效多尺度特征建模、全局上下文推理和部署友好架构优化的统一框架。

作为

数据集

我们在三个公开可用的医学图像分割基准数据集上评估了我们的模型，这些数据集具有不同的解剖特征和分割挑战。（1）乳腺超声图像数据集（BUSI）[49]包含647张良性和恶性乳腺肿瘤的超声图像，大小调整为256 × 256像素。由于组织对比度低、斑点噪声和声学阴影，病变边界通常模糊，肿瘤形状不规则，给准确边界定位带来了挑战

结论

在这项研究中，我们提出了RA2M-UNet架构，该架构利用轻量级结构设计通过精细的特征表示和上下文建模来增强分割掩码预测。通过结合层次特征提取、分组融合策略和多尺度监督，模型实现了精确的空间定位和稳健的语义区分，同时保持了计算效率和分割准确性之间的良好平衡。

我们

CRediT作者贡献声明

赵超：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，软件，方法论，形式分析，数据管理，概念化。杨磊：撰写 – 审稿与编辑，撰写 – 原稿，验证，资源，形式分析。张赛：撰写 – 审稿与编辑，撰写 – 原稿，可视化，形式分析。段洪亮：撰写 – 审稿与编辑，撰写 – 原稿，可视化，监督，形式分析，