基于弱监督深度学习(Weakly Supervised Deep Learning)框架直接从甲状腺超声影像进行甲状腺结节病理诊断

时间:2026年6月1日
来源:Frontiers in Endocrinology

编辑推荐:

背景:甲状腺结节超声(Ultrasound, US)检查的管理通常耗时且观察者间一致性较差。应用深度学习(Deep Learning, DL)可提高检查速度并改善报告一致性。本研究旨在开发一种新型双重注意力引导的DL框架,无需昂贵的图像级标注即可从甲状腺US直

广告
   X   

背景:甲状腺结节超声(Ultrasound, US)检查的管理通常耗时且观察者间一致性较差。应用深度学习(Deep Learning, DL)可提高检查速度并改善报告一致性。本研究旨在开发一种新型双重注意力引导的DL框架,无需昂贵的图像级标注即可从甲状腺US直接推断组织学状态。 方法:在这项回顾性分析中,患者先接受US检查,随后行细针穿刺(Fine-Needle Aspiration, FNA)或手术组织学分析。使用嘉兴市第二医院的两个数据集(Batch 1和Batch 2)分别用于算法训练、测试与验证。所提出的DL框架命名为ThyUS2Path,包含两个注意力模块以关注不同维度上具有判别性的结节模式。研究人员将ThyUS2Path与两种常用的先进MIL(Multiple Instance Learning)方法进行对比。 结果:研究人员使用来自603例患者的6014张图像构建DL框架,并在1978张外部图像上进行评估,五折交叉验证AUC为0.754±0.035和0.735±0.029。ThyUS2Path显著优于两种常用的最先进MIL方法(Maxpool和Meanpool)。算法在外部测试集亦获得良好预测性能(AUROC为0.70~0.80,AUPRC为0.78~0.83)。 结论:本方法为实现US表型与组织学报告的关联提供了可行途径,有望以非侵入性方式增强临床医师甲状腺癌诊断能力。
论文解读:基于弱监督深度学习框架直接从甲状腺超声影像进行甲状腺结节病理诊断——ThyUS2Path模型的开发与验证
本研究发表于《Frontiers in Endocrinology》。
一、研究背景与目的
甲状腺超声(Ultrasound, US)是评估甲状腺结节的首选工具,但良恶性结节的超声征象存在重叠,且操作者经验与诊断标准差异导致观察者间一致性低,单纯US诊断甲状腺癌的灵敏度仅约27%~63%。临床常规推荐甲状腺影像报告和数据系统(Thyroid Imaging Reporting and Data System, TIRADS)≥3级的结节行细针穿刺活检(Fine-Needle Aspiration Biopsy, FNAB),但FNAB存在约20%的不明诊断率或需重复操作。传统计算机辅助诊断依赖手工提取特征,而现有深度学习(Deep Learning, DL)方法多需精细的图像级标注(耗时费力),或以TIRADS为标签间接训练,未能直接预测组织学结果。此外,单次超声检查产生多帧动态图像,单张图像诊断会丢失整体信息。因此,研究人员拟开发一种临床实用的诊断模型——ThyUS2Path,采用弱监督的多示例学习(Multiple Instance Learning, MIL)策略,直接利用患者级病理标签从同一患者的多张US图像中学习,实现无创预测甲状腺结节的良性或恶性组织学诊断,无需逐张图像标注。
二、关键技术方法
研究人员收集嘉兴市第二医院两个回顾性数据集:Batch 1含603例患者6014张甲状腺US图像(按患者9:1分为训练-验证与内部测试,并行五折交叉验证);Batch 2含108例患者1978张图像作为外部独立验证集。患者级标签依据最严重组织学诊断(任一枚结节恶性则判为恶性)。构建ThyUS2Path模型:以在ImageNet预训练的ResNet-34为骨干网络(Backbone Network)移除末层全连接层提取特征;设计双重注意力(Dual-Attention)模块——空间注意力模块(Intra-image Region Attention Module, IRAM)捕获单幅图像内区域间依赖关系,实例注意力模块(Inter-image Sample Attention Module, ISAM)通过门控注意力机制为同一患者不同图像分配权重并聚合为患者级特征表示;最终通过全连接层进行二分类(良性/恶性),采用交叉熵损失函数,SGD优化器训练100个Epoch,以验证集AUROC选择最佳模型。对比基线为Meanpool与Maxpool MIL方法。性能评估指标为患者水平受试者工作特征曲线下面积(Area Under the ROC Curve, AUROC)及精确召回曲线下面积(Area Under the Precision-Recall Curve, AUPRC)。
三、研究结果
Characteristics of images and patients(图像与患者特征)
训练集603例患者中良性218例、恶性385例,每例患者US图像数不等。展示了数据集分布及良恶性典型超声图像实例。
Classification performance of ThyUS2Path(ThyUS2Path的分类性能)
在内部测试集(548张图像)五折交叉验证中,ThyUS2Path平均测试AUROC达0.745±0.035,AUPRC达0.830±0.047,显著优于Meanpool和Maxpool基线方法。各折灵敏度、特异度、阳性预测值(Positive Predictive Value, PPV)、阴性预测值(Negative Predictive Value, NPV)详见补充材料。表明双重注意力聚合优于简单均值或最大值池化。
Generalizability to external test cohort(外部测试队列的泛化性)
在外部独立测试集(Batch 2,1978张图像)上,ThyUS2Path五折交叉验证AUROC为0.708~0.790(均值约0.736),AUPRC为0.777~0.834(均值约0.805),展示出在同一医疗体系内跨时间队列的良好稳健性,且仍优于非注意力MIL基线。
Visualization results(可视化结果)
通过对实例注意力模块得分排序,模型自动挑选出同一患者中最具诊断价值的US图像(多为显示恶性特征的帧),与临床认知相符。误判病例分析显示假阴性多为缺乏典型恶性征象的结节,假阳性多见于含伪像或可疑回声模式的图像,失败模式与已知甲状腺超声诊断难点一致。
四、讨论与结论
讨论指出,ThyUS2Path避免了繁琐的图像级标注,利用MIL框架直接关联US表型与组织学报告,双重注意力机制分别强化结节内空间显著区域及患者最具判别力的图像,克服了单帧信息不全及图像数量不均的问题。局限性包括:数据源于同一医院系统,需多中心前瞻验证;样本来自拟行手术的患者而非筛查人群,患病率差异可能影响预测值;未与放射科医师TIRADS诊断做头对头比较;多结节患者采用"任一恶性即判恶性"的标签策略可能存在噪声但符合临床干预逻辑。
结论(Conclusion):提高超声正确分类甲状腺结节的能力对临床决策至关重要,可指导后续治疗。该算法无需超声图像标注与人工特征提取,即有望实现个体水平甲状腺癌判读。若经多中心前瞻性队列进一步验证,可帮助减少不必要的有创活检,支持甲状腺结节诊疗中的临床决策。

生物通微信公众号
微信
新浪微博


生物通 版权所有