医学图像分割已成为计算机辅助诊断系统中的核心技术,在肿瘤检测、器官定位和手术规划等临床应用中展现出关键价值[1]、[2]、[3]。深度学习的出现显著提高了分割准确性,卷积神经网络(CNN)如U-Net及其变体(例如,Attention U-Net、3D U-Net)发挥了重要作用[4]、[5]、[6]。基于这些进展,深度学习分割技术已广泛应用于各种医学领域。例如,Manoila等人[7]引入了smartMRI框架来评估多个CNN和超参数,同时提出了用于膝关节MRI分割的Pseudo3D GU-Net和高斯池化。在肺部CT成像中,Rezvani等人[8]开发了FusionLungNet,这是一个具有通道聚合注意力和残差精化的多尺度融合网络,用于处理模糊的组织边界和支气管血管重叠等问题。对于结直肠病理图像,Zhang等人[9]提出了SC-Net,这是一个具有多尺度特征提取块和特征映射层的对称圆锥形网络,有效解决了异构语义和上下文依赖性问题。
然而,这些深度学习方法的有效性受到大规模、高质量标注医学数据集稀缺的严重限制[10]。这一限制源于专家标注的高成本和时间需求,以及严格的隐私和伦理限制[11]。因此,数据不足已成为阻碍开发强大且临床可靠的分割模型的主要瓶颈。为了解决这个问题,研究人员探索了多种策略,包括迁移学习、半监督学习、少样本学习[12]、[13]、[14]。同时,一个根本性的挑战仍然存在:先进模型的高计算复杂性与医学硬件的有限处理能力之间的不匹配[15]。最近通过结合基于Transformer的框架取得了突破,这些框架利用全局注意力机制来建模长距离空间依赖性和语义关系。像TransUNet[16]和UNETR[17]这样的开创性工作表明,将CNN的层次特征提取与Transformer的全局上下文建模相结合,在多器官分割和脑肿瘤勾勒等任务中取得了更好的性能。尽管有这些进展,基于Transformer的方法仍面临固有的挑战:自注意力机制的二次计算复杂性导致参数数量和推理成本呈指数级增长,限制了它们在资源受限环境中的适用性[18]、[19]。
当前的研究通过两个主要途径寻求解决方案。首先,轻量级架构如MobileNet[20]、ShuffleNet[21]和EfficientNet[22]采用深度可分离卷积和通道混合等技术来降低计算成本。然而,它们的特征表示能力对于复杂的医学成像模式(特别是在低对比度超声或多模态MRI数据的情况下)仍然不足[23]、[24]、[25]。其次,模型压缩方法如知识蒸馏[26]和网络剪枝[27]可以有效减少参数数量,但可能会扭曲模型的原始拓扑结构,可能导致超出临床可接受阈值的准确性损失[28]。最近尝试将多尺度特征融合和空间-语义注意力机制结合起来进一步复杂化了这一局面,因为这样的增强通常会导致计算开销呈指数级增加,从而产生了新的“准确性-效率”悖论[29]、[30]。
为了解决这些挑战,本研究提出了基于结构重新参数化的自适应医学图像分割框架RA2M-UNet。我们的贡献如下:
特征融合模块:我们引入了一个特征融合模块(GA2M),它将多尺度膨胀卷积与2D选择性扫描模块(2D-SSM)相结合。该模块有效地捕获了细粒度细节和全局上下文信息,提高了分割性能,同时没有增加计算复杂性。
改进的2D-SSM:在传统2D-SSM设计的基础上,我们提出了一个改进版本(RA2M),更好地整合了空间和语义依赖性。这一改进使模型能够同时关注局部和全局特征,提高了复杂医学图像的分割准确性。
结构重新参数化:为了解决参数数量过多的问题,我们采用了结构重新参数化技术。这种方法使模型在显著减少参数数量的同时保持高性能,使其更适合在资源受限的设备上部署。
多输出监督:为了进一步细化模型的学习过程并提高分割准确性,我们采用了多输出监督。通过使用不同尺度的多个输出,模型能够更好地捕捉图像的多样方面,提高了其在各种医学成像任务中的泛化能力和鲁棒性。
通过这些创新,我们的算法在保持紧凑架构的同时实现了高分割准确性,使其非常适合计算资源有限的真实世界医学应用。