注意力引导的多尺度融合网络用于3D颞骨小器官分割

时间：2026年5月24日

来源：Biomedical Signal Processing and Control

编辑推荐：

张庆雷|李家正|段建国|周颖|秦继云|贾欢中国自由贸易试验区供应链研究所，上海海事大学，上海201306，中国摘要计算机断层扫描（CT）是耳科诊断和治疗中描绘人类颞骨关键解剖结构的金标准方法。准确分割这些结构对于计算机辅助分析颞骨CT图像至关重要。然而，由于这些结构体积小、空间关

张庆雷|李家正|段建国|周颖|秦继云|贾欢

中国自由贸易试验区供应链研究所，上海海事大学，上海201306，中国

摘要

计算机断层扫描（CT）是耳科诊断和治疗中描绘人类颞骨关键解剖结构的金标准方法。准确分割这些结构对于计算机辅助分析颞骨CT图像至关重要。然而，由于这些结构体积小、空间关系复杂以及专家标注成本高昂，基于深度学习的自动分割技术仍面临挑战。为了解决这一问题，我们提出了一种新的多尺度特征融合网络（MSFF-UNet）用于3D医学图像分割。该网络结合了多尺度卷积模块和混合注意力机制，通过多尺度卷积显著增强了特征图的质量，捕捉到了复杂的特征信息。此外，在瓶颈层构建了一个分层频率引导的融合模块，通过并行轻量级卷积生成空间先验。该模块利用通道分组和动态阈值将特征分解为高频细节和低频结构，然后通过三重融合输出结合细节与语义的三维特征。我们在一个私有的颞骨CT数据集上进行了实验，结果显示，听小骨和迷路的平均分割精度分别达到了85.79%和86.91%，优于现有的半自动或自动分割技术。

引言

听力障碍是一种常见的临床状况，其发病机制通常与内耳结构损伤或病理变化有关。炎症和肿瘤等病理因素会损害

颞骨结构（鼓膜、听小骨和膜迷路），从而导致听力损失。另一方面，狭窄且弯曲的耳道环境阻碍了对内耳异常的直接观察。因此，基于医学成像的内耳结构三维重建对于诊断辅助至关重要。然而，内耳结构体积小且解剖关系复杂，给精确的三维可视化建模带来了重大挑战。因此，从CT扫描中自动分割关键的颞骨解剖结构具有重要的临床价值，可以减少医生的工作负担并降低诊断错误[1]。

颞骨计算机断层扫描已达到亚毫米级分辨率，成为耳病诊断的公认临床标准[2]。除了在评估创伤、炎症和肿瘤方面发挥决定性作用外，CT还为病变定位、范围评估和手术计划提供了安全可靠的基础[3]。然而，与边界清晰的解剖结构（如肝脏、肾脏）不同，内耳结构的边界模糊，与周围器官的分界不明确，形态变化大，给自动分割带来了巨大挑战。此外，内耳结构体积极小，也增加了研究难度。例如，在一个512 × 512 × 199体素的人类颞骨CT数据集中，最大的器官——内耳道包含约1,298个体素，而最小的器官——锤骨仅包含约184个体素。单个CT切片中的目标区域占总图像面积的不到1%[1]。人类颞骨包含超过30个解剖结构。本研究专注于听小骨（锤骨、砧骨和镫骨）和膜迷路（前庭、上半规管、后半规管和外侧半规管）。

计算机技术的进步使得医学成像辅助诊断在多个器官结构（肺、肝、乳腺、骨骼）中得到广泛应用。因此，通过图像处理和机器学习算法实现完全自动化和精确的医学图像分割已成为研究重点[4]。医学图像分割方法包括传统方法和基于深度学习的技术。传统分割方法主要涵盖阈值处理、区域生长和边缘检测。这些方法通过分析图像内像素值的相似性来实现区域分割，但容易受到噪声影响，分割精度较低。此外，它们缺乏适应性和上下文理解能力，在处理复杂结构和大规模图像时表现不佳。与传统方法不同，基于深度学习的医学图像分割能够自动学习并提取高维特征，无需人工设计，显示出更强的适应性。深度学习方法通常在处理复杂和高度可变的医学图像时具有更高的准确性和鲁棒性。

2012年，AlexNet[5]首次证明学习到的特征可以胜过手工设计的特征，这一突破推动了计算机视觉领域深度学习的发展，并为医学图像分割奠定了基础。2015年，Ronneberger等人[6]提出了U-Net，这种架构被广泛用于医学图像分割。根据一项关于深度语义分割的全面调查[7]，U-Net显著提高了模型精度，同时解决了梯度消失问题，成为医学图像分割的领先架构。2020年，Isensee等人[8]引入了nnU-Net，这是一种根据数据集特征自动调整超参数的自适应框架，无需人工干预。

在传统的卷积神经网络中，建模图像中的长距离依赖关系仍存在局限性。尽管使用池化层可以扩大感受野，但仍会导致大量结构信息的丢失。为了解决这个问题，Valanarasu J M J等人在2021年将Transformer模型引入医学图像分割，成功建模了长距离依赖关系，并在大规模和复杂的医学图像分割任务中展示了其优势。这些研究为医学图像分割奠定了坚实基础，后续研究在不同任务和场景中系统地推进了分割方法的发展。Chen Wang等人[10]提出了基于Transformer的Trans-VNet方法，用于CBCT图像中牙齿的语义分割，旨在解决牙齿重叠紧密、个体差异大、数据噪声和数据分布不均等问题。Taiping Qu等人[11]引入了Transformer[12]引导的渐进式融合网络（TGPFN），用于3D胰腺和胰腺肿瘤的分割，解决了胰腺肿瘤类型多样性和分割难度高的问题。

然而，这些方法在分割具有复杂形态和边界不清晰的小结构时存在困难，特征提取不足和细节丢失严重影响了小器官的分割精度。为了解决3D器官分割中的这些问题，我们提出了一种深度监督网络，该网络融合了多尺度特征。我们的网络采用多尺度特征提取模块，可靠地捕获不同尺度下颞骨器官的有效特征。通过结合轻量级增强特征融合和深度监督，该网络显著提高了小器官分割的精度，并在颞骨CT数据集上表现出色。

我们的主要贡献如下：

(1) 提出了MSFF-UNet：一种用于颞骨CT图像多结构分割的3D网络，通过跨层跳跃连接实现多尺度特征融合，显著提高了小结构的识别精度。

(2) 设计了MSFEM模块：结合了通道和空间注意力机制，有效选择不同尺度的感受野进行多尺度特征提取，从而增强了网络对细微结构的感知能力。

(3) 验证了有效性：在私有颞骨CT数据集（120例）上的广泛实验表明，MSFF-UNet在分割听小骨和膜迷路等小结构方面达到了领先水平，优于多种主流方法。