基于视觉Transformer与Wasserstein GAN的超声甲状腺结节自动分类:一种提升诊断准确性的混合模型

时间:2025年11月20日
来源:Scientific Reports

编辑推荐:

本研究针对甲状腺结节超声图像分类中CNN模型难以捕捉全局上下文信息及医学数据集类别不平衡的问题,提出了一种结合视觉Transformer(ViT)和带梯度惩罚的Wasserstein生成对抗网络(WGAN-GP)的混合模型。该模型利用ViT的自注意力机制提取局部和全局特征,同时通过WGAN-GP生成高质量合成图像以解决数据不平衡问题。在TN5000和UD-TN数据集上的实验表明,该模型准确率分别达到96.8%和97.1%,灵敏度达97.3%-97.5%,显著优于现有方法,为甲状腺结节的自动化诊断提供了可靠工具。

广告
   X   

甲状腺结节是甲状腺内常见的异常组织增生,早期准确识别其良恶性对临床治疗至关重要。超声成像因其无辐射、实时性和低成本优势,成为甲状腺结节筛查的首选方法。然而,传统超声诊断高度依赖放射科医师的经验判断,存在主观性强、诊断一致性差等挑战。随着深度学习技术在医学影像分析中的广泛应用,卷积神经网络(CNN)在甲状腺结节分类中展现出潜力,但仍面临两个关键瓶颈:一是CNN的局部感受野特性限制了对图像全局上下文信息的捕捉能力,而结节恶性征象往往分布在较大区域;二是医学数据集中恶性结节样本通常稀缺,导致模型训练存在严重的类别不平衡问题。
为突破这些限制,印度Vignan科学技术与研究基金会的G.Naga Sujini与Sivadi Balakrishna在《Scientific Reports》上发表了一项创新研究,提出将视觉Transformer(Vision Transformer, ViT)与带梯度惩罚的Wasserstein生成对抗网络(Wasserstein Generative Adversarial Networks with Gradient Penalty, WGAN-GP)相结合的混合模型。ViT通过自注意力(self-attention)机制能够同时捕捉局部特征和长程依赖关系,而WGAN-GP则通过生成高质量合成图像有效缓解数据不平衡问题,两者协同工作显著提升了甲状腺结节的自动分类性能。
研究方法的核心技术路线包括:首先对超声图像进行标准化预处理,包括尺寸调整至224×224像素、强度归一化至[0,1]区间,并应用高斯滤波去噪。数据增强采用旋转(±15°)、水平/垂直翻转、随机裁剪和对比度调整等技术。模型架构上,ViT组件将图像分割为16×16像素块,通过线性投影转换为嵌入向量,加入位置编码后输入Transformer编码器。WGAN-GP组件包含生成器和判别器网络,通过梯度惩罚项稳定训练过程,生成逼真的甲状腺结节合成图像。最终分类器基于ViT提取的特征和WGAN-GP增强后的数据训练完成。
图像预处理与数据增强
研究采用TN5000和UD-TN两个公开数据集,分别包含5000和10495张甲状腺超声图像。预处理阶段除常规操作外,特别采用边缘裁剪技术移除DICOM文件头保护隐私,同时完整保留甲状腺区域和病灶信息。
WGAN-GP生成的高质量合成图像经两名经验丰富放射科医生验证,确认保留了回声纹理、形态学和边缘界定等诊断相关特征。
Vision Transformer特征提取
ViT模型通过自注意力机制评估不同图像块之间的相关性,克服了CNN局部感受野的局限性。具体实现中,将ResNet50输出的特征图分割为小块,线性投影至模型维度后加入类别令牌和位置编码。每个Transformer块计算多头自注意力(Multi-Head Self-Attention, MSA),最终由分类头输出预测结果。这种设计使模型能够同时关注结节的局部细节和全局分布模式,对捕捉恶性结节的细微特征尤为有效。
WGAN-GP稳定训练与数据平衡
WGAN-GP通过引入梯度惩罚项解决传统GAN训练不稳定的问题。其目标函数包含Wasserstein距离估计和梯度惩罚项,确保判别器满足Lipschitz约束。生成器学习生成与真实结节分布一致的合成图像,有效扩充了少数类(恶性结节)样本量。训练过程中采用交替更新策略,每完成ncritic次判别器更新后进行一次生成器更新, spectral归一化进一步增强了训练稳定性。
混合模型集成与分类性能
ViT+WGAN-GP混合模型通过序列化流程集成:原始图像经ViT提取深度特征,WGAN-GP生成的合成图像同时输入特征提取管道,最终由全连接网络完成良恶性分类。在TN5000数据集上,模型准确率达96.8%,精确率95.6%,灵敏度97.3%,特异性96.4%,F1分数96.5%,马修斯相关系数(Matthews Correlation Coefficient, MCC)达98.2%。UD-TN数据集上性能进一步提升,准确率达97.1%,相关指标均优于对比模型。
与现有方法对比分析显示,该模型显著优于传统CNN架构(如DeepLabV3+准确率92.3%)、纯ViT模型(准确率95.0%)以及CNN+GAN混合模型(准确率95.3%)。特别是在灵敏度指标上,ViT+WGAN-GP模型对恶性结节的识别能力显著提升,这对临床减少漏诊至关重要。受试者工作特征曲线(Receiver Operating Characteristic, ROC)和精确率-召回率(Precision-Recall, PR)曲线分析表明,模型在类别不平衡条件下仍保持稳定性能,PR曲线下面积(Average Precision, AP)在TN5000数据集上达0.71。
训练过程分析显示,ViT+WGAN-GP模型收敛稳定,训练准确率达98.3%,验证准确率96.8%,表明模型泛化能力良好。损失函数曲线平滑下降,未出现模式崩溃(mode collapse)或训练发散现象,证明梯度惩罚机制有效稳定了对抗训练过程。
临床工作流整合方面,研究团队设计了完整的预测管道:超声图像输入后,经预处理、ViT特征提取和WGAN-GP增强,最终输出良恶性概率。概率大于0.5判定为恶性,反之判定为良性。该流程可直接集成至现有医学影像存档与通信系统(Picture Archiving and Communication System, PACS),为放射科医生提供决策支持。
研究结论表明,ViT+WGAN-GP混合模型通过结合Transformer的全局上下文建模能力和生成对抗网络的数据平衡优势,在甲状腺结节自动分类任务中实现了突破性性能。模型在保持高特异性的同时,对恶性结节的高灵敏度(97.3%-97.5%)尤其符合临床优先减少漏诊的需求。计算效率分析显示,虽然模型复杂度高于传统CNN(时间复杂度包含O(L·(N2·D))的注意力计算和O(k·(CG+CD))的对抗训练),但通过补丁化处理和优化策略,在NVIDIA A100 GPU上仍可实现可行训练。
该研究的核心创新在于首次将ViT与WGAN-GP协同应用于甲状腺超声图像分析,解决了医学影像分析中的两个关键挑战:全局特征提取和类别不平衡。未来研究方向包括多中心前瞻性验证、模型轻量化部署以及多模态数据(如临床病史)融合,进一步提升模型的临床适用性和诊断价值。

生物通微信公众号
微信
新浪微博


生物通 版权所有