使用扩张注意力变换器学习可变形图像配准

时间：2026年1月23日

来源：Knowledge-Based Systems

编辑推荐：

本文提出金字塔稀释注意力网络（PDAN）用于变形图像配准，通过稀释注意力模块扩大感受野并降低计算复杂度，结合稀释匹配模块处理大位移问题，在脑MRI和肝CT数据集上验证了其优于现有方法的配准精度和拓扑保持能力。

在医学图像分析领域，变形图像配准（DIR）作为连接影像数据与临床应用的桥梁技术，其核心目标是通过建立高精度位移场（DVF）实现不同时间、不同扫描方式或不同设备采集的医学影像对齐。传统方法依赖复杂的迭代优化算法，存在计算效率低、难以处理大范围形变等缺陷。近年来，基于深度学习的配准技术逐渐成为主流，其中Transformer架构因其强大的全局注意力建模能力备受关注。然而，现有Transformer方法在处理高分辨率三维医学影像时面临两大核心挑战：一是如何平衡计算复杂度与长程依赖建模能力；二是如何有效支持大位移量的精准匹配。

传统CNN架构通过逐层卷积操作提取空间特征，但存在三个显著局限：首先，卷积核的局部感受野难以捕捉三维医学影像中复杂解剖结构的全局关联；其次，特征提取与位移计算在CNN层中耦合，导致模型难以分离空间特征增强与形变估计两个关键任务；最后，标准卷积操作对跨影像的空间偏移缺乏直接建模能力。为突破这些限制，当前Transformer方法主要采用两种策略：一种是将其嵌入CNN瓶颈层的低分辨率特征提取环节（如DTN、ViT-V-Net等），另一种是限制注意力计算范围在局部窗口内（如TransMorph）。这两种方案虽然缓解了计算负担，但均存在明显缺陷。

在低分辨率特征处理方面，现有方法通过下采样压缩三维数据维度，虽然降低了计算复杂度，但导致高频解剖结构信息丢失。例如，脑部MRI中微小血管的位移可能因低分辨率特征丢失而无法准确捕捉。在局部窗口注意力方案中，尽管计算复杂度可控，但窗口大小固定导致模型难以适应不同解剖结构的动态形变范围。以肝脏CT配准为例，肿瘤区域可能产生超过5个像素的位移，而局部3×3×3窗口无法有效建模这种大范围形变。

针对上述问题，本文提出PDAN（Pyramid Dilated Attention Network）框架，通过解耦特征提取、增强与匹配三个阶段，并创新性地引入双 Dilated 模块，实现了计算效率与建模能力的平衡。其核心突破体现在两个方面：首先，设计Dilated Attention Transformer（DAT）模块，通过稀疏化采样策略在保持线性复杂度的前提下，将特征关联范围扩展至三维空间中的多个尺度。其次，开发Dilated Matching Module（DMM）实现大范围位移搜索，通过多级金字塔结构逐步细化匹配精度。

在技术实现层面，DAT模块采用分层稀释采样机制。对于三维特征图，每个采样层通过调整空间间隔参数（如1×1×1到4×4×4）构建多尺度特征池。这种设计既保留了高频细节特征，又通过稀疏采样实现了长程关联建模。实验表明，相较于传统局部窗口注意力（3×3×3），DAT在保持75%计算量的同时，将跨影像特征相似度匹配精度提升32%。特别是在脑部MRI配准中，DAT成功捕捉到脑脊液流动导致的弥散性位移模式。

DMM模块则通过动态扩展匹配范围解决大位移建模难题。该模块采用双金字塔架构：底层金字塔负责粗粒度位移估计（如器官级形变），顶层通过注意力稀释策略实现亚像素级匹配。以肝脏CT为例，当存在区域性膨大（位移达15像素）时，DMM通过三级稀释（1×1×1→2×2×2→3×3×3）逐步扩展搜索范围，同时保持每个稀释层的计算复杂度与原始分辨率线性相关。这种渐进式匹配机制有效解决了传统方法中局部窗口导致的匹配盲区问题。

框架的整体架构采用五层金字塔结构，从128×128×128到256×256×256逐步放大特征分辨率。每个层级均集成DAT和DMM模块，形成"特征增强-位移匹配"的递进式处理流程。在脑部MRI配准实验中，该架构展现出显著优势：当处理原始512×512×512的高分辨率数据时，传统全局注意力方案需要计算超过2.1×10^9个键值对，而PDAN通过稀释采样将计算量降低至1.3×10^8（约61%）。在AHD（平均 Hausdorff 距离）指标上，PDAN达到0.87像素（优于次优方法的1.12像素），Dice系数提升至0.924（对比基准模型的0.891）。

该方法在两个关键维度实现突破性进展：其一，通过空间稀释采样机制，将Transformer的注意力范围从传统3×3×3窗口扩展至可变范围（1-8像素），在保证计算复杂度线性增长的前提下，使跨影像特征相似度检测的敏感度提升40%。其二，创新性地将金字塔架构与稀释注意力结合，在脑部MRI实验中，当解剖结构存在复杂形变（如脑沟回曲率变化达35%）时，PDAN仍能保持稳定的位移场估计精度。

实验验证部分采用OASIS和LIDC两个基准数据集。在OASIS脑部MRI数据集（425例配准对）中，PDAN在平均Dice系数（0.924 vs 0.891）和AHD（0.87 vs 1.12）两项核心指标上均超越当前最先进的DITN、RegNet3D等方法。特别值得注意的是，在脑白质纤维束的追踪任务中，PDAN的位移场估计误差比次优方法降低27%。在LIDC肝脏CT数据集上，面对肿瘤区域（平均CT值差异达30 HU）的形变，PDAN展现出更鲁棒的特征匹配能力，其Dice系数达到0.912，而采用固定窗口的Transformer方法在相同数据下仅获得0.854。

该方法的创新价值不仅体现在技术突破，更在于建立了清晰的架构分离原则：将传统CNN中的特征提取、上下文建模、位移计算三个功能模块进行解耦。特征提取阶段采用轻量化3D卷积网络，确保保留原始解剖结构的空间拓扑信息；特征增强阶段通过DAT模块建立跨影像的多尺度关联；位移计算阶段则由DMM模块完成从粗到细的渐进式匹配。这种分离式设计使得每个模块都能专注于特定任务，例如DMM的稀释匹配机制专门针对大位移问题，而DAT则专注于建立高分辨率的特征关联网络。

在计算效率方面，PDAN通过动态稀释策略将计算复杂度从传统Transformer的O(n²)降低到O(nk)，其中k为平均稀释系数（本实验中k=2.3）。具体实现时，每个稀释层采用不同的空间间隔参数，通过分层稀释采样逐步扩大特征关联范围。这种设计使得在保持高精度位移场估计的前提下，计算效率比现有最先进的Transformer方法提升约1.8倍。

临床应用验证表明，PDAN在多模态配准中展现出良好的泛化能力。在脑部MRI与PET-CT跨模态配准实验中，其位移场估计的Jaccard系数达到0.782，显著高于基于局部窗口注意力方法的0.634。这种跨模态配准能力为构建多模态影像融合平台提供了可靠的技术基础。

从技术演进角度分析，PDAN的提出标志着Transformer在医学图像处理领域的应用进入新阶段。相较于早期研究（如 patch-based attention）仅关注局部特征关联，PDAN通过稀释机制实现了长程依赖建模的突破。同时，该架构与当前流行的自监督学习范式兼容，在无标注数据场景下仍能保持较高配准精度（在OASIS数据集上，半监督训练的PDAN平均Dice系数为0.917）。

未来研究方向可能包括：1）如何将这种稀释注意力机制推广到动态影像序列的时序配准；2）探索与物理模型结合的位移场优化策略；3）在低剂量CT等噪声环境下提升鲁棒性。此外，该框架的模块化设计为后续扩展功能（如引入图神经网络建模解剖结构拓扑）提供了基础。

总体而言，PDAN框架通过创新性地融合金字塔架构与稀释注意力机制，在保持计算效率的同时显著提升了医学图像配准的精度和鲁棒性。这种架构设计理念为解决其他三维医学影像处理任务（如器官形变追踪、多时间点影像对比）提供了可借鉴的范式，对推动医学影像智能分析的发展具有重要价值。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部