基于序数损失函数的临床感知学习:提升乳腺影像报告和数据系统分类器的性能与临床意义

时间:2026年1月4日
来源:Journal of Clinical Medicine

编辑推荐:

本研究系统评估了序数损失函数在乳腺影像报告和数据系统(BI-RADS)乳腺X线摄影分类中的应用。通过固定架构(EfficientNet-B3)和多数据集(VinDr-Mammo、INBreast、EMBED)对比实验,发现地球移动距离(EMD)等序数损失函数相比标准交叉熵损失(Cross-Entropy)能显著提升曲线下面积(AUROC)和宏F1分数(macro-F1),并有效减少严重误分类,凸显了将学习目标与BI-RADS序数结构对齐对于提升模型临床相关性和鲁棒性的重要性。

广告
   X   

1. 引言
乳腺癌是全球女性癌症相关死亡的主要原因之一,其早期检测和诊断至关重要。乳腺X线摄影筛查是临床实践中关键的早期检测手段。乳腺影像报告和数据系统(Breast Imaging Reporting and Data System, BI-RADS)由美国放射学会(American College of Radiology, ACR)制定,旨在标准化乳腺影像发现的描述和临床决策。BI-RADS将发现的病变按恶性可疑程度进行分类,从类别1(阴性)到类别6(活检证实的恶性),这是一个具有临床意义的序数尺度。
然而,尽管BI-RADS具有明确的序数性质,大多数基于深度学习的分类模型仍将其视为名义分类任务,使用交叉熵损失函数(Cross-Entropy Loss)进行优化。这种方法忽略了类别之间的顺序关系,导致模型对不同程度误分类的惩罚与其临床严重性不匹配。例如,将类别3误分类为类别4的临床后果远小于将类别1误分类为类别5,但交叉熵损失对这两种错误的惩罚是相同的。这种不匹配可能降低模型的训练效率和临床可靠性。
尽管序数分类在机器学习领域是一个长期存在的问题,但在乳腺影像领域的应用探索有限。先前的研究多集中于特定的网络架构或简单的二分类(癌/非癌)、三分类(正常/良性/恶性)任务,缺乏对多种现代序数损失函数在BI-RADS分类任务上的系统性、控制性比较。此外,现有研究往往在单一数据集上进行,难以评估模型的泛化能力,且较少关注数据不平衡(包括类别不平衡和数据集规模差异)以及正则化技术(如标签平滑)对模型性能的影响。
本研究旨在填补这一空白,系统性地探讨在固定架构(EfficientNet-B3)和多数据集(VinDr-Mammo, INBreast, EMBED)训练条件下,引入序数损失函数(如CORAL, CORN, CDW-CE, EMD, MCE & WK, WK)是否能提升BI-RADS分类性能。研究同时评估了数据平衡策略和标签平滑的影响,并通过多次随机种子实验确保结果的稳健性。
2. 材料与方法
2.1. 数据集
研究选取了三个公开的、包含BI-RADS评估的乳腺X线摄影数据集:VinDr-Mammo、INBreast和EMBED。这些数据集在图像数量、标注实践和设备类型上存在异质性。为确保评估的公正性和泛化能力,研究采用了严格的患者级别数据划分,避免同一患者的图像出现在训练集、验证集和测试集中。验证集使用VinDr的预留部分,测试集则使用独立的INBreast子集。
考虑到原始BI-RADS类别的复杂性和某些类别(如BI-RADS 0和3)在诊断决策中的特殊性,研究将目标类别映射为三个具有临床意义且保持序数结构的类别:正常(对应BI-RADS 1-2)、良性(对应BI-RADS 2,部分)和恶性(对应BI-RADS 4-6)。BI-RADS 3(可能良性)因其通常需要短期随访而非最终诊断,被排除在外,以避免模糊类别边界。
2.2. 预处理与数据增强
图像预处理包括自动光度解释校正(确保高像素值对应亮区域)和基于外部分割模型的乳腺区域裁剪,以去除背景和伪影。训练图像分辨率主要为512 × 512像素,最终模型提升至1024 × 1024像素以捕捉更精细的诊断细节(如微钙化)。
采用了全面的数据增强流程,包括几何变换(仿射变换、旋转、翻转、光学和网格畸变)和光度变换(对比度受限自适应直方图均衡化CLAHE、亮度对比度调整、伽马校正、锐化、像素/网格丢弃),以模拟真实世界中的图像变异,提高模型对设备、定位和对比度差异的鲁棒性。
2.3. 类别平衡
研究面临两种不平衡:目标标签分布不平衡和数据集规模不平衡(例如,EMBED图像数量远多于INBreast)。比较了两种主要策略:损失加权(对罕见类别的错误施加更高惩罚)和样本平衡(通过过采样/欠采样控制批次中类别或数据集的出现频率)。
实验表明,结合数据集级别平衡(确保不同数据集对梯度的贡献相对均衡)和类别级别平衡的策略最为有效,能显著提升验证集和测试集性能,防止模型过度拟合到最大的数据集(如EMBED)。
2.4. 模型架构
所有实验均使用在ImageNet上预训练的EfficientNet-B3卷积神经网络,该架构在准确性和参数效率之间取得了良好平衡。
2.5. 损失函数
除了标准交叉熵损失(CE),研究系统比较了多种序数损失函数:
  • CORAL
  • CORN
  • 类别距离加权交叉熵(CDW-CE)
  • 地球移动距离(EMD)
  • MCE & WK(混合损失)
  • WK
    这些损失函数通过不同方式将类别间的序数关系融入优化目标。
2.6. 训练
训练使用AdamW优化器和基于步长的学习率调度器。最佳模型根据验证集上的AUROC指标选择。每个实验重复5次随机初始化,报告指标的平均值和标准差,以确保评估的稳健性。评估指标包括准确率、宏精确率(Macro-Precision)、宏召回率(Macro-Recall, 灵敏度)、宏特异性(Macro-Specificity)、宏F1分数(Macro-F1)和宏平均曲线下面积(Macro-AUROC)。
2.7. 可解释性
使用Grad-CAM++技术生成显著性图,可视化模型在做出预测时关注的图像区域,从而增强模型决策过程的透明度和临床可解释性。这有助于验证模型是否聚焦于医学相关特征(如腺体组织)。
3. 结果
3.1. 平衡策略与损失加权的对比
数据集级别平衡被证明是提升性能的关键策略。与仅使用损失加权或类别平衡相比,结合数据集级别平衡的策略在VinDr验证集和INBreast测试集上均取得了最高的AUROC和宏F1分数。这有效缓解了大型数据集(EMBED)的主导影响,促进了模型在不同数据源间的泛化能力。
3.2. 标签平滑的影响
在交叉熵损失基础上应用不同水平的标签平滑(Label Smoothing),并未在验证集或测试集上带来统计学上显著的性能提升。这表明,对于BI-RADS分类任务,这种通用的正则化技术益处有限。
3.3. 损失函数比较
序数损失函数整体上优于标准交叉熵损失。在VinDr验证集上,EMD损失获得了最高的AUROC和宏F1分数,其AUROC增益具有统计学意义。在独立的INBreast测试集上,混合损失MCE & WK和CDW-CE表现出最强的改进,而EMD也保持了优于交叉熵的平均性能。这表明序数感知优化能带来一致且具有临床意义的性能提升,特别是在减少严重误分类方面。尽管不同损失函数在不同数据集上的显著性存在差异,但最优的序数损失(EMD, MCE & WK, CDW-CE)在测试集上均持续优于交叉熵。
3.4. 模型可解释性可视化
Grad-CAM++可视化显示,无论使用交叉熵损失还是序数损失,模型均能持续关注乳腺腺体区域,而非背景或伪影。这表明模型的决策基于解剖学相关特征,具有临床合理性。标签平滑对注意力模式影响甚微,而不同序数损失函数产生的可视化结果与交叉熵相似,证实了模型行为的稳定性和可解释性。
3.5. 最佳模型
综合所有实验结果,最终选定使用EMD损失函数和数据集级别平衡策略。并将输入图像分辨率从512 × 512提升至1024 × 1024。这一最终配置在VinDr验证集和INBreast测试集上均取得了进一步的性能提升,证明了高分辨率结合序数优化策略的有效性。
4. 讨论
本研究结果表明,在固定模型架构的前提下,通过精心选择损失函数和数据平衡策略,即可显著提升BI-RADS分类器的性能。数据集级别平衡对于处理多源异构数据至关重要,能有效提升模型的泛化能力。而序数损失函数,特别是EMD,通过将优化目标与BI-RADS标签固有的序数结构对齐,带来了超越标准交叉熵的临床相关性能改善,这体现在更高的AUROC和宏F1分数,以及减少严重误分类的潜力上。
相比之下,标签平滑并未产生显著影响,提示针对此任务,需要更特化的正则化方法而非通用的输出分布平滑。
研究的局限性包括:排除了BI-RADS 3类别;将BI-RADS 4-6合并为单一恶性类别,损失了部分序数粒度;由于数据集规模和种子间变异,观察到的改进幅度相对适中;以及公开数据集可能无法完全代表真实临床环境的多样性。
未来研究方向包括:将序数分类策略扩展到其他医学序数预测任务(如癌症分级、糖尿病视网膜病变分期);探索在自动化或联邦学习设置下的数据平衡协议;以及在前瞻性临床工作流中验证这些方法,并进一步集成可解释性工具以增强临床医生的信任。
5. 结论
本研究首次在BI-RADS乳腺X线摄影分类任务中,在控制架构和数据的条件下,系统比较了序数感知损失函数。研究证明,将学习目标与临床标签的序数结构对齐,是一种简单而有效的方法,能够提升模型的准确性、鲁棒性和临床相关性。即使不改变网络架构,通过损失函数设计和数据平衡策略的优化也能实现显著增益。
这项工作为医学人工智能中更广泛地采用序数原则提供了依据,强调了在设计医疗AI系统时,考虑临床语义和任务内在结构的重要性。研究框架可重现,为其他医学序数分类任务的评估提供了参考。未来的工作可以探索多架构集成、领域鲁棒性训练和元数据整合,以进一步推动临床可信赖的AI发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有