在医学影像领域,精准分割是疾病诊断、治疗规划和病程监测的核心环节。随着 CT、MRI 等 3D 成像技术的普及,海量 volumetric 数据对自动化分割提出更高要求。传统 CNN 虽擅长局部特征提取,但在捕捉全局上下文信息时存在局限;Transformer 虽能建模长距离依赖,却因自注意力机制的二次计算复杂度,难以高效处理高分辨率医学图像。此外,医学图像常含运动伪影、金属畸变等噪声,进一步挑战模型的鲁棒性。如何在保持计算效率的同时,兼顾全局与局部特征的精准提取,成为当前医学图像分割领域的关键瓶颈。
为突破上述难题,国内研究团队开展了基于扩散模型与新型序列模型的创新性研究。研究人员提出 MSM-Diff(Multi-Scale Spatial Mamba Diffusion Model),旨在通过融合扩散模型的迭代优化能力、Mamba 架构的线性计算优势和 CNN 的局部感知能力,实现 3D 医学图像的精准分割。该研究成果发表于《Engineering Applications of Artificial Intelligence》,为医学影像分析提供了兼具效率与精度的新范式。
研究采用的核心技术方法包括:
- Mamba-based U 型特征编码器(MUFE):集成 3D 多尺度空间 Mamba 模型(MS-Mamba)与 CNN 提取的特征,通过 MS-Mamba 的线性计算特性捕获全局上下文,同时利用 CNN 提取局部细节,实现多尺度特征融合。
- 多尺度门控空间卷积(MS-GSC)模块:嵌入于 MUFE 中,通过多尺度卷积操作进一步细化空间特征表示,增强对复杂解剖结构边界的刻画能力。
- 扩散模型框架:通过前向扩散过程逐步添加噪声、反向扩散过程迭代去噪,实现对图像结构细节的精细化建模,提升分割结果的语义一致性。
研究使用 ISLES’17、ISLES’18、ISLES’22 等公开脑卒中病变分割数据集验证模型性能。
实验结果
对比分析
在多组对比实验中,MSM-Diff 在 Dice 相似系数(DSC)和 95% Hausdorff 距离(HD95)等关键指标上显著优于现有方法,如 U-Net、UNETR、SwinUNETR 等。例如,在 ISLES’22 数据集上,其 DSC 值达到 state-of-the-art 水平,表明对脑缺血病变区域的分割精度显著提升。
消融研究
通过移除 MS-Mamba 或 MS-GSC 模块的消融实验显示,二者对模型性能均有重要贡献。其中,MS-Mamba 的缺失导致全局特征捕捉能力下降,分割结果在大尺度结构上出现偏差;MS-GSC 的移除则使空间特征表示模糊,影响边界分割的准确性。
可视化实验
可视化结果表明,MSM-Diff 能够清晰勾勒病变区域边界,尤其在噪声干扰或结构复杂的区域表现出更强的鲁棒性。与传统方法相比,其分割结果更接近医生手动标注的 ground truth,验证了模型在实际临床场景中的应用潜力。
结论与讨论
MSM-Diff 通过创新性融合扩散模型、Mamba 架构和 CNN,构建了兼具全局上下文感知与局部细节捕捉能力的医学图像分割框架。其核心优势在于:
- 计算效率:利用 Mamba 架构的线性复杂度特性,突破 Transformer 二次计算瓶颈,适用于高分辨率 3D 医学图像的实时处理。
- 特征建模:MS-Mamba 与 MS-GSC 的协同作用,实现了多尺度空间特征的层次化提取,有效应对医学图像中尺度变化大、噪声干扰多的挑战。
- 临床价值:在公开数据集上的优异表现表明,该模型可显著提升放射科医生和临床医生的诊断效率与治疗规划准确性,为脑卒中、肿瘤等疾病的精准诊疗提供了可靠的技术支撑。
这项研究不仅为医学图像分割领域提供了新的技术路径,也为 Mamba 等新型序列模型在计算机视觉中的应用拓展了思路。未来,进一步结合更复杂的病理图像数据和多模态成像技术,有望推动该模型向临床转化迈出更坚实的步伐。