基于视觉Transformer与Wasserstein GAN的超声甲状腺结节自动分类：一种提升诊断准确性的混合模型

时间：2025年11月20日

来源：Scientific Reports

编辑推荐：

本研究针对甲状腺结节超声图像分类中CNN模型难以捕捉全局上下文信息及医学数据集类别不平衡的问题，提出了一种结合视觉Transformer(ViT)和带梯度惩罚的Wasserstein生成对抗网络(WGAN-GP)的混合模型。该模型利用ViT的自注意力机制提取局部和全局特征，同时通过WGAN-GP生成高质量合成图像以解决数据不平衡问题。在TN5000和UD-TN数据集上的实验表明，该模型准确率分别达到96.8%和97.1%，灵敏度达97.3%-97.5%，显著优于现有方法，为甲状腺结节的自动化诊断提供了可靠工具。

甲状腺结节是甲状腺内常见的异常组织增生，早期准确识别其良恶性对临床治疗至关重要。超声成像因其无辐射、实时性和低成本优势，成为甲状腺结节筛查的首选方法。然而，传统超声诊断高度依赖放射科医师的经验判断，存在主观性强、诊断一致性差等挑战。随着深度学习技术在医学影像分析中的广泛应用，卷积神经网络(CNN)在甲状腺结节分类中展现出潜力，但仍面临两个关键瓶颈：一是CNN的局部感受野特性限制了对图像全局上下文信息的捕捉能力，而结节恶性征象往往分布在较大区域；二是医学数据集中恶性结节样本通常稀缺，导致模型训练存在严重的类别不平衡问题。

为突破这些限制，印度Vignan科学技术与研究基金会的G.Naga Sujini与Sivadi Balakrishna在《Scientific Reports》上发表了一项创新研究，提出将视觉Transformer(Vision Transformer, ViT)与带梯度惩罚的Wasserstein生成对抗网络(Wasserstein Generative Adversarial Networks with Gradient Penalty, WGAN-GP)相结合的混合模型。ViT通过自注意力(self-attention)机制能够同时捕捉局部特征和长程依赖关系，而WGAN-GP则通过生成高质量合成图像有效缓解数据不平衡问题，两者协同工作显著提升了甲状腺结节的自动分类性能。

研究方法的核心技术路线包括：首先对超声图像进行标准化预处理，包括尺寸调整至224×224像素、强度归一化至[0,1]区间，并应用高斯滤波去噪。数据增强采用旋转(±15°)、水平/垂直翻转、随机裁剪和对比度调整等技术。模型架构上，ViT组件将图像分割为16×16像素块，通过线性投影转换为嵌入向量，加入位置编码后输入Transformer编码器。WGAN-GP组件包含生成器和判别器网络，通过梯度惩罚项稳定训练过程，生成逼真的甲状腺结节合成图像。最终分类器基于ViT提取的特征和WGAN-GP增强后的数据训练完成。

图像预处理与数据增强

研究采用TN5000和UD-TN两个公开数据集，分别包含5000和10495张甲状腺超声图像。预处理阶段除常规操作外，特别采用边缘裁剪技术移除DICOM文件头保护隐私，同时完整保留甲状腺区域和病灶信息。

WGAN-GP生成的高质量合成图像经两名经验丰富放射科医生验证，确认保留了回声纹理、形态学和边缘界定等诊断相关特征。

Vision Transformer特征提取

ViT模型通过自注意力机制评估不同图像块之间的相关性，克服了CNN局部感受野的局限性。具体实现中，将ResNet50输出的特征图分割为小块，线性投影至模型维度后加入类别令牌和位置编码。每个Transformer块计算多头自注意力(Multi-Head Self-Attention, MSA)，最终由分类头输出预测结果。这种设计使模型能够同时关注结节的局部细节和全局分布模式，对捕捉恶性结节的细微特征尤为有效。

WGAN-GP稳定训练与数据平衡

WGAN-GP通过引入梯度惩罚项解决传统GAN训练不稳定的问题。其目标函数包含Wasserstein距离估计和梯度惩罚项，确保判别器满足Lipschitz约束。生成器学习生成与真实结节分布一致的合成图像，有效扩充了少数类（恶性结节）样本量。训练过程中采用交替更新策略，每完成n_critic次判别器更新后进行一次生成器更新， spectral归一化进一步增强了训练稳定性。

混合模型集成与分类性能

ViT+WGAN-GP混合模型通过序列化流程集成：原始图像经ViT提取深度特征，WGAN-GP生成的合成图像同时输入特征提取管道，最终由全连接网络完成良恶性分类。在TN5000数据集上，模型准确率达96.8%，精确率95.6%，灵敏度97.3%，特异性96.4%，F1分数96.5%，马修斯相关系数(Matthews Correlation Coefficient, MCC)达98.2%。UD-TN数据集上性能进一步提升，准确率达97.1%，相关指标均优于对比模型。

与现有方法对比分析显示，该模型显著优于传统CNN架构（如DeepLabV3+准确率92.3%）、纯ViT模型（准确率95.0%）以及CNN+GAN混合模型（准确率95.3%）。特别是在灵敏度指标上，ViT+WGAN-GP模型对恶性结节的识别能力显著提升，这对临床减少漏诊至关重要。受试者工作特征曲线(Receiver Operating Characteristic, ROC)和精确率-召回率(Precision-Recall, PR)曲线分析表明，模型在类别不平衡条件下仍保持稳定性能，PR曲线下面积(Average Precision, AP)在TN5000数据集上达0.71。

训练过程分析显示，ViT+WGAN-GP模型收敛稳定，训练准确率达98.3%，验证准确率96.8%，表明模型泛化能力良好。损失函数曲线平滑下降，未出现模式崩溃(mode collapse)或训练发散现象，证明梯度惩罚机制有效稳定了对抗训练过程。

临床工作流整合方面，研究团队设计了完整的预测管道：超声图像输入后，经预处理、ViT特征提取和WGAN-GP增强，最终输出良恶性概率。概率大于0.5判定为恶性，反之判定为良性。该流程可直接集成至现有医学影像存档与通信系统(Picture Archiving and Communication System, PACS)，为放射科医生提供决策支持。

研究结论表明，ViT+WGAN-GP混合模型通过结合Transformer的全局上下文建模能力和生成对抗网络的数据平衡优势，在甲状腺结节自动分类任务中实现了突破性性能。模型在保持高特异性的同时，对恶性结节的高灵敏度（97.3%-97.5%）尤其符合临床优先减少漏诊的需求。计算效率分析显示，虽然模型复杂度高于传统CNN（时间复杂度包含O(L·(N²·D))的注意力计算和O(k·(C_G+C_D))的对抗训练），但通过补丁化处理和优化策略，在NVIDIA A100 GPU上仍可实现可行训练。

该研究的核心创新在于首次将ViT与WGAN-GP协同应用于甲状腺超声图像分析，解决了医学影像分析中的两个关键挑战：全局特征提取和类别不平衡。未来研究方向包括多中心前瞻性验证、模型轻量化部署以及多模态数据（如临床病史）融合，进一步提升模型的临床适用性和诊断价值。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部