用于TN3K与DDTI超声数据集甲状腺结节稳健分割的残差交叉门控深度监督U-Net

时间:2026年5月28日
来源:Biomedical Signal Processing and Control

编辑推荐:

超声图像中甲状腺结节的精确分割对于可靠的计算机辅助诊断至关重要,但由于斑点噪声、低对比度、病灶外观异质性以及边界不清晰,该任务仍然具有挑战性。为解决这些局限性,研究人员提出了RCGA-UNet-DS(Residual Cross-Gated Aggregati

广告
   X   

超声图像中甲状腺结节的精确分割对于可靠的计算机辅助诊断至关重要,但由于斑点噪声、低对比度、病灶外观异质性以及边界不清晰,该任务仍然具有挑战性。为解决这些局限性,研究人员提出了RCGA-UNet-DS(Residual Cross-Gated Aggregation U-Net with Deep Supervision,带深度监督的残差交叉门控聚合U-Net),这是一种全卷积(fully convolutional)分割架构,旨在在不依赖Transformer模块或空洞卷积(dilated convolutions)的前提下,增强多尺度上下文推理能力和边界判别能力。所提出的网络采用六阶段编码器-解码器结构,集成了残差双卷积编码器块、注意力引导的交叉门控跳跃连接,以及跨尺度全局上下文(Cross-Scale Global Context,CSGC)模块。CSGC组件利用全局平均池化(global average pooling)从多个编码器深度聚合全局描述符,并将其投影到共享潜在空间中,从而实现跨尺度编码器特征的通道级自适应调制。此外,四个深度监督分支被附加到中间解码器层级,以稳定优化过程并改善梯度传播。该网络采用由Dice、二元交叉熵(binary cross-entropy,BCE)和边界感知项组成的混合损失进行优化。在两个公开甲状腺超声数据集TN3K和预处理版本的DDTI上,基于统一预处理流程并将灰度输入调整为384 × 384开展的实验表明,该方法具有较强的分割性能。在TN3K测试集上,模型获得了0.8461的Dice分数和0.7661的IoU;在DDTI上,获得了0.9042的Dice分数和0.8291的IoU;在UDIAT上,取得了0.7751的Dice分数。这些结果表明,RCGA-UNet-DS能够有效捕获多尺度上下文信息,并在保持计算效率的同时,实现对甲状腺结节的精确勾画。
该文发表于《Biomedical Signal Processing and Control》,围绕甲状腺结节超声图像自动分割这一医学图像分析问题展开。研究背景在于,超声(ultrasound,US)因成本低、无电离辐射、临床可及性高而成为甲状腺筛查首选成像方式,但B-mode超声成像存在严重斑点噪声、声影、组织间低对比度以及回声密度不均等问题,导致结节边界模糊、形态不规则、病灶内部异质性显著,进而增加人工勾画的主观性和耗时性,也限制了计算机辅助诊断、恶性风险评估及长期体积随访的准确性与可重复性。既往U-Net、ResUNet、ResUNet++、V-Net及CNN-Transformer混合模型虽推动了像素级分割发展,但在TN3K和DDTI等真实甲状腺超声基准上,仍普遍面临多尺度上下文整合不足、边界恢复能力有限,以及高性能方法常伴随较高计算复杂度的问题。因此,开展一种不依赖Transformer、同时兼顾上下文表征、边界判别与计算效率的分割框架,具有明确的方法学价值和应用意义。

基于上述问题,研究人员提出RCGA-UNet-DS(Residual Cross-Gated Aggregation U-Net with Deep Supervision,带深度监督的残差交叉门控聚合U-Net)。该模型是全卷积编码器-解码器架构,核心目标是在不使用自注意力(self-attention)与空洞卷积的条件下,通过跨尺度上下文聚合与门控特征重标定提升甲状腺结节分割质量。论文指出,甲状腺超声分割性能的关键不一定在于Transformer本身,而更在于上下文融合与边界区分能力。围绕这一认识,研究人员构建了六阶段编码器-解码器网络,在编码端采用残差双卷积块以强化特征提取与训练稳定性;在跳跃连接中引入注意力引导的交叉门控机制,以改善编码器与解码器之间的特征筛选和信息传递;同时设计跨尺度全局上下文(Cross-Scale Global Context,CSGC)模块,通过聚合多个编码深度的全局统计信息,在共享潜在空间内进行通道级调制,从而提升网络的多尺度语义整合能力。进一步地,研究人员在多个中间解码层添加深度监督分支,以优化梯度传播并稳定训练过程,尤其有助于复杂边界和弱对比病灶的学习。

从技术方法看,研究主要采用3个关键策略:其一,基于TN3K与DDTI两个公开甲状腺超声数据集开展训练与评估,其中DDTI包含637幅灰度B-mode图像及专家标注掩膜,TN3K包含3493幅图像、涉及2421例患者;其二,输入图像经统一预处理并缩放至384 × 384,构建全卷积六阶段编码器-解码器网络,融合残差编码、交叉门控跳跃连接与CSGC上下文聚合;其三,训练阶段采用Dice + 二元交叉熵(binary cross-entropy,BCE)+ 边界感知项构成的混合损失函数,并在4个中间解码层施加加权深度监督,以增强优化稳定性与边界学习能力。

研究结果部分,论文围绕数据集评估、定量性能和整体讨论展开。

Datasets
研究使用两个公开可用的甲状腺超声数据集训练和评估RCGA-UNet-DS网络:Digital Database for Thyroid Images(DDTI)和TN3K。论文指出,DDTI包含637幅甲状腺结节灰度B-mode超声图像,并配有由专家放射科医师提供的像素级二值掩膜标注,图像在纹理模式、回声特征以及探头配置方面具有明显变异性,体现了真实临床异质性。TN3K则包含更大规模的甲状腺结节图像及标注,可用于验证模型在复杂设备差异和解剖视角变化下的鲁棒性。该数据基础为模型跨域泛化能力和分割性能评估提供了支撑。

Quantitative evaluation
在定量评估中,由于TN3K提供官方训练-测试划分,论文以测试集平均结果报告性能而非交叉验证统计量。研究结果显示,RCGA-UNet-DS在TN3K测试集上实现了0.8461的平均Dice分数和0.7661的IoU,同时总体准确率(accuracy)达到0.9728,精确率(precision)为0.8536,召回率(recall)为0.8800,特异度(specificity)达到0.9833。这表明模型不仅能较准确地覆盖结节区域,而且能够较有效地抑制假阳性背景激活。摘要还给出DDTI上的结果:Dice为0.9042,IoU为0.8291;在UDIAT数据集上的Dice为0.7751。结合引言中的基准对比可见,该方法在TN3K上处于具有竞争力的水平,在DDTI上也展现出较强分割能力,说明该架构对于不同超声域具有一定泛化适用性。

Discussion
讨论部分指出,本研究系统评估了RCGA-UNet-DS在DDTI与TN3K两个超声基准上的自动甲状腺结节分割性能,实验旨在同时考察分割精度及其在不同超声成像特征条件下的稳健性,包括斑点噪声、病灶边界薄弱、回声异质性及跨设备差异。结合全文信息可归纳,研究结果支持这样一个结论:通过残差交叉门控、跨尺度全局上下文聚合和深度监督的协同设计,全卷积网络能够在不引入Transformer和空洞卷积的情况下,有效实现多尺度信息整合和边界优化,从而获得较强的甲状腺结节分割性能。论文强调,这一结果说明高质量甲状腺超声分割并不完全依赖复杂的自注意力机制,轻量化而有针对性的上下文重加权与边界引导同样可以达到具有竞争力的效果,并兼顾计算实用性。

该研究的重要意义主要体现在三个方面。第一,方法学上提出了一种Transformer-free的高性能分割框架,证明卷积网络在精心设计的跨尺度聚合与门控机制支持下,仍可在甲状腺超声场景中实现接近或达到先进水平的表现。第二,应用层面上,该方法有助于提高甲状腺结节自动勾画的一致性与可重复性,为后续风险分层、良恶性辅助判断和随访评估提供更稳定的病灶区域基础。第三,泛化层面上,模型除在TN3K和DDTI上取得良好结果外,还在UDIAT上展示了跨域表现,提示其残差交叉门控聚合策略不仅适用于甲状腺超声,也可能对其他B-mode超声分割任务具有参考价值。

研究结论部分可译为:总之,本研究证明了RCGA-UNet-DS作为一种高效且无Transformer的架构具有良好有效性,在DDTI和TN3K两个数据集上,相较于现有模型——包括HFA-UNet和DW-Swin等基于Transformer的模型——取得了较强性能。所提出架构充分利用了残差交叉门控、跨尺度全局上下文聚合以及深度监督的优势,而这些组件是实现高效超声分割的重要因素。

生物通微信公众号
微信
新浪微博


生物通 版权所有