UKAN+:通过融合注意力与Kolmogorov-Arnold网络提升医学图像分割效果

时间:2026年2月25日
来源:Biomedical Signal Processing and Control

编辑推荐:

本文提出基于Kolmogorov–Arnold网络(KAN)的改进架构UKAN+,通过融合KAN增强的通道注意力模块和卷积增强的空间注意力模块,有效提升医疗影像分割性能。实验在八种医学影像模态上验证,平均Dice提升1.97%,IoU提升6.32%,且保持30FPS实时分割速度。

广告
   X   

作者列表:田乐乐(Lele Tian)、吴星龙(Xinglong Wu)、王亚鹏(Yapeng Wang)、徐夏宇(Xiayu Xu)、谭涛(Tao Tan)、徐阳(Xu Yang)、李泽锋(Zefeng Li)、韩旺敏(Mini Han Wang)、宋菊城(Jucheng Song)、林思凯(Sio-Kei Im)、梁占土(Zhantu Liang)、陈柏林(Bailin Chen)、童旭明(Xuming Tong)
澳门理工学院应用科学学院,中国澳门特别行政区 999078

摘要

随着Kolmogorov–Arnold网络(KANs)的出现,这种网络以其强大的非线性表示能力而闻名,将KANs与U-Net结合(称为UKAN)为U-Net家族开辟了新的途径。然而,UKAN相对简单的架构设计限制了KANs非线性表示能力的有效利用,尤其是在医学成像场景中。因此,本研究探讨了KAN在医学图像分割中的潜力。我们提出了一种新的架构,将KAN集成到注意力模块和编码器-解码器架构中,以增强视觉任务的性能。具体而言,我们设计了一个融合注意力模块KS-CS,它包含两个并行分支:一个KAN增强的选择性核(KS)单元,用可学习的B样条激活函数替换了固定激活的MLP,以实现精确的动态权重生成;以及一个卷积增强的空间注意力(CS)单元。这种改进产生了一种新的架构,称为UKAN+。我们对UKAN+在八种不同的医学成像模式(显微镜、结肠镜检查、CT、干涉成像、X射线、OCT、超声波和MRI)进行了全面评估。实验结果表明,与现有的UKAN相比,UKAN+在平均Dice分数上提高了1.97%,在平均IoU上提高了6.32%。这些改进在多种解剖结构和成像协议中都表现稳健,同时保持了30 FPS的临床实时分割速度。这些努力提供了重要的见解,并突显了将KAN与注意力机制和U-Net结合以建立强大医学图像分割框架的潜力。源代码将在论文发表后公开。

引言

卷积神经网络(CNNs)由于其强大的表示能力,在医学图像分析中得到了广泛应用,其中图像分割是该领域最重要的任务之一。准确且稳健的医学图像分割可以大大帮助医疗专业人员做出明智的决策,从而提高诊断准确性。早期的分割模型包括FCN [1] 和SegNet [2]。随着深度学习的进步,引入了多种架构,如U-Net [3]、U-Net++ [4]、UNet 3+ [5]、3D U-Net [6] 和U-NeXt [7]。这些架构因其编码器-解码器结构而表现出显著的有效性。特别是,它们利用层次化特征提取并采用跳跃连接来保留空间信息,从而实现低级编码器特征与解码器高级语义表示的有效融合 [8]。尽管有这些优势,卷积操作本质上仅限于捕捉局部像素之间的空间依赖性。因此,它们难以建模复杂的跨通道非线性依赖性,而这些依赖性对于准确的医学图像诊断往往至关重要 [9]、[10]。 基于Transformer的模型的出现引发了医学图像分割的范式转变,提供了捕捉全局依赖性的能力。代表性示例包括Trans-UNet [11](它结合了ViT架构 [12]),以及MedT [13]、Swin-Unet [14] 和UNETR [15]。然而,Transformer在捕捉局部细节方面的能力相对较弱,而这些细节对于精确的医学图像分割也是必不可少的 [16]、[17]。总之,尽管卷积网络和基于Transformer的模型取得了显著进展,但它们仍然存在固有的局限性。最近,现代状态空间模型(SSMs)及其变体(如Mamba [18]、U-Mamba [19] 和SegMamba [20])展现了巨大的潜力。它们在保持线性复杂性的同时建立了长距离依赖性,并受益于线性时间推理和高效训练。然而,Mamba在长序列上的有效性仍需在图像层面得到充分验证 [21]。 同时,注意力机制也被广泛应用于模型中,主要包括两种类型:通道注意力(channel attention)和空间注意力(space attention),或它们的联合形式(例如CBAM [22]、SK [23]、EMCAD [24]、RGAM [25])。然而,这些注意力机制中对MLP的依赖往往限制了非线性特征建模,从而导致收敛困难 [26]、[27]。 最近,Kolmogorov–Arnold网络(KANs)[28]作为一种新的范式出现,引入了可学习的非线性激活函数。这些函数表现出更高的准确性和更好的可解释性,使神经网络能够更有效地捕捉复杂的功能映射 [29]。因此,KAN作为传统多层感知器(MLPs)的替代方案显示出巨大潜力,最近的研究开始探索其在计算机视觉和相关学习任务中的有效性 [30]、[31]。 受到现有基于注意力的分割网络的局限性和KANs潜力的启发,我们研究了如何将KANs有效地集成到注意力机制中。与依赖具有固定激活函数的MLP来生成注意力权重的传统注意力模块不同,我们引入KANs来重新设计内部注意力决策过程。通过利用可学习的激活函数,所提出的KAN增强注意力机制实现了更灵活的通道依赖性建模。为了充分利用KANs在编码器-解码器架构和注意力模块中的潜力,我们提出了一种新的网络架构,称为UKAN+。为了提高可读性,本文中使用的缩写在表1中进行了总结。我们工作的主要贡献如下:
1. 我们提出了一种新的架构UKAN+,它增强了特征区分能力,并进一步改进了原始UKAN的设计。这种改进使得UKAN+在多种医学成像模式中的性能更胜一筹。
2. 为了解决医学成像中特征表示不足的常见问题,我们提出了一种新的KS-CS模块,据我们所知,这是第一个将KAN与注意力机制结合的模块,旨在提高特征提取的精确度和增强分割性能。
3. 所提出的模型已被证明能够有效分析多种病理情况、解剖区域和成像模式的数据,同时在参数数量(Params)、计算复杂性(GFLOPs)和模型效率(GPP)之间取得了最佳平衡。此外,实验结果表明,该模型满足了临床实践中实时分割的速度要求。
4. 我们通过广泛的消融研究验证了我们方法的有效性,包括对网络中KAN层数量变化的观察结果,并进一步证明了其在医学图像分割中的竞争性能。

方法

本节首先概述了网络架构,然后详细描述了设计的注意力模块,这些模块旨在捕捉空间和通道维度上的上下文信息。

数据集

我们对提出的方法在八个异构医学图像分割数据集上进行了全面评估:GlaS数据集 [13]、CVC数据集 [35]、SLiver07数据集 [36]、MGD数据集 [37]、MSCXR数据集 [38]、DDME数据集 [39]、FLUS数据集 [40] 和HMS数据集 [41]。这些数据集包含了来自不同解剖区域、临床案例和成像模式的数据。每个数据集都有独特的特征,包括不同的数据大小和图像质量。

KS-CS融合模块的设计选择

在本小节中,我们通过实验验证了我们的设计选择的有效性。图5展示了我们的实验结果。我们的模块设计过程分为三个部分。首先,我们研究了优化通道注意力的最有效方法,特别是原始的SK(选择性核)分支和优化的KS(KAN增强SK)分支。其次,我们优化了空间注意力,特别是原始的SA(空间注意力)和优化的CS分支。

结论

在本文中,我们提出了UKAN+,这是一种将KAN与注意力机制结合的新架构,用于改进医学图像分割的编码器-解码器结构。通过结合基于KAN的选择性核注意力和卷积增强的空间注意力,UKAN+增强了特征区分能力并提高了整体分割精度。我们在八种医学成像模式(显微镜、结肠镜检查、CT、干涉成像)上进行了广泛的实验。
田乐乐(Lele Tian):撰写初稿、可视化、监督、软件开发、资源管理、方法论设计、研究实施、形式分析、数据整理、概念构建。 吴星龙(Xinglong Wu):资源管理、方法论设计、研究实施、形式分析、数据整理、概念构建。 王亚鹏(Yapeng Wang):撰写与编辑、可视化、验证、监督、软件开发、资源管理、项目协调、方法论设计、资金获取、形式分析、数据整理、概念构建。

伦理批准

本研究仅使用了公开可用的数据集,这些数据集不包含任何个人身份信息。因此,不需要伦理批准和知情同意。

关于写作过程中生成式AI和AI辅助技术的声明

在准备本工作时,作者使用了ChatGPT来提高手稿的清晰度和可读性。使用该工具后,作者根据需要对内容进行了审查和编辑,并对发表文章的内容负全责。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系,这些利益或关系可能会影响本文报告的工作。

致谢

本工作由澳门理工学院在研究项目RP/FCA-04/2022的支持下完成,并处于提交控制之下(代码:fca.16b7.520c.4)。

生物通微信公众号
微信
新浪微博


生物通 版权所有