基于序数损失函数的临床感知学习：提升乳腺影像报告和数据系统分类器的性能与临床意义

时间：2026年1月4日

来源：Journal of Clinical Medicine

编辑推荐：

本研究系统评估了序数损失函数在乳腺影像报告和数据系统（BI-RADS）乳腺X线摄影分类中的应用。通过固定架构（EfficientNet-B3）和多数据集（VinDr-Mammo、INBreast、EMBED）对比实验，发现地球移动距离（EMD）等序数损失函数相比标准交叉熵损失（Cross-Entropy）能显著提升曲线下面积（AUROC）和宏F1分数（macro-F1），并有效减少严重误分类，凸显了将学习目标与BI-RADS序数结构对齐对于提升模型临床相关性和鲁棒性的重要性。

1. 引言

乳腺癌是全球女性癌症相关死亡的主要原因之一，其早期检测和诊断至关重要。乳腺X线摄影筛查是临床实践中关键的早期检测手段。乳腺影像报告和数据系统（Breast Imaging Reporting and Data System, BI-RADS）由美国放射学会（American College of Radiology, ACR）制定，旨在标准化乳腺影像发现的描述和临床决策。BI-RADS将发现的病变按恶性可疑程度进行分类，从类别1（阴性）到类别6（活检证实的恶性），这是一个具有临床意义的序数尺度。

然而，尽管BI-RADS具有明确的序数性质，大多数基于深度学习的分类模型仍将其视为名义分类任务，使用交叉熵损失函数（Cross-Entropy Loss）进行优化。这种方法忽略了类别之间的顺序关系，导致模型对不同程度误分类的惩罚与其临床严重性不匹配。例如，将类别3误分类为类别4的临床后果远小于将类别1误分类为类别5，但交叉熵损失对这两种错误的惩罚是相同的。这种不匹配可能降低模型的训练效率和临床可靠性。

尽管序数分类在机器学习领域是一个长期存在的问题，但在乳腺影像领域的应用探索有限。先前的研究多集中于特定的网络架构或简单的二分类（癌/非癌）、三分类（正常/良性/恶性）任务，缺乏对多种现代序数损失函数在BI-RADS分类任务上的系统性、控制性比较。此外，现有研究往往在单一数据集上进行，难以评估模型的泛化能力，且较少关注数据不平衡（包括类别不平衡和数据集规模差异）以及正则化技术（如标签平滑）对模型性能的影响。

本研究旨在填补这一空白，系统性地探讨在固定架构（EfficientNet-B3）和多数据集（VinDr-Mammo, INBreast, EMBED）训练条件下，引入序数损失函数（如CORAL, CORN, CDW-CE, EMD, MCE & WK, WK）是否能提升BI-RADS分类性能。研究同时评估了数据平衡策略和标签平滑的影响，并通过多次随机种子实验确保结果的稳健性。

2. 材料与方法

2.1. 数据集

研究选取了三个公开的、包含BI-RADS评估的乳腺X线摄影数据集：VinDr-Mammo、INBreast和EMBED。这些数据集在图像数量、标注实践和设备类型上存在异质性。为确保评估的公正性和泛化能力，研究采用了严格的患者级别数据划分，避免同一患者的图像出现在训练集、验证集和测试集中。验证集使用VinDr的预留部分，测试集则使用独立的INBreast子集。

考虑到原始BI-RADS类别的复杂性和某些类别（如BI-RADS 0和3）在诊断决策中的特殊性，研究将目标类别映射为三个具有临床意义且保持序数结构的类别：正常（对应BI-RADS 1-2）、良性（对应BI-RADS 2，部分）和恶性（对应BI-RADS 4-6）。BI-RADS 3（可能良性）因其通常需要短期随访而非最终诊断，被排除在外，以避免模糊类别边界。

2.2. 预处理与数据增强

图像预处理包括自动光度解释校正（确保高像素值对应亮区域）和基于外部分割模型的乳腺区域裁剪，以去除背景和伪影。训练图像分辨率主要为512 × 512像素，最终模型提升至1024 × 1024像素以捕捉更精细的诊断细节（如微钙化）。

采用了全面的数据增强流程，包括几何变换（仿射变换、旋转、翻转、光学和网格畸变）和光度变换（对比度受限自适应直方图均衡化CLAHE、亮度对比度调整、伽马校正、锐化、像素/网格丢弃），以模拟真实世界中的图像变异，提高模型对设备、定位和对比度差异的鲁棒性。

2.3. 类别平衡

研究面临两种不平衡：目标标签分布不平衡和数据集规模不平衡（例如，EMBED图像数量远多于INBreast）。比较了两种主要策略：损失加权（对罕见类别的错误施加更高惩罚）和样本平衡（通过过采样/欠采样控制批次中类别或数据集的出现频率）。

实验表明，结合数据集级别平衡（确保不同数据集对梯度的贡献相对均衡）和类别级别平衡的策略最为有效，能显著提升验证集和测试集性能，防止模型过度拟合到最大的数据集（如EMBED）。

2.4. 模型架构

所有实验均使用在ImageNet上预训练的EfficientNet-B3卷积神经网络，该架构在准确性和参数效率之间取得了良好平衡。

2.5. 损失函数

除了标准交叉熵损失（CE），研究系统比较了多种序数损失函数：

•
CORAL
•
CORN
•
类别距离加权交叉熵（CDW-CE）
•
地球移动距离（EMD）
•
MCE & WK（混合损失）
•
WK

这些损失函数通过不同方式将类别间的序数关系融入优化目标。

2.6. 训练

训练使用AdamW优化器和基于步长的学习率调度器。最佳模型根据验证集上的AUROC指标选择。每个实验重复5次随机初始化，报告指标的平均值和标准差，以确保评估的稳健性。评估指标包括准确率、宏精确率（Macro-Precision）、宏召回率（Macro-Recall, 灵敏度）、宏特异性（Macro-Specificity）、宏F1分数（Macro-F1）和宏平均曲线下面积（Macro-AUROC）。

2.7. 可解释性

使用Grad-CAM++技术生成显著性图，可视化模型在做出预测时关注的图像区域，从而增强模型决策过程的透明度和临床可解释性。这有助于验证模型是否聚焦于医学相关特征（如腺体组织）。

3. 结果

3.1. 平衡策略与损失加权的对比

数据集级别平衡被证明是提升性能的关键策略。与仅使用损失加权或类别平衡相比，结合数据集级别平衡的策略在VinDr验证集和INBreast测试集上均取得了最高的AUROC和宏F1分数。这有效缓解了大型数据集（EMBED）的主导影响，促进了模型在不同数据源间的泛化能力。

3.2. 标签平滑的影响

在交叉熵损失基础上应用不同水平的标签平滑（Label Smoothing），并未在验证集或测试集上带来统计学上显著的性能提升。这表明，对于BI-RADS分类任务，这种通用的正则化技术益处有限。

3.3. 损失函数比较

序数损失函数整体上优于标准交叉熵损失。在VinDr验证集上，EMD损失获得了最高的AUROC和宏F1分数，其AUROC增益具有统计学意义。在独立的INBreast测试集上，混合损失MCE & WK和CDW-CE表现出最强的改进，而EMD也保持了优于交叉熵的平均性能。这表明序数感知优化能带来一致且具有临床意义的性能提升，特别是在减少严重误分类方面。尽管不同损失函数在不同数据集上的显著性存在差异，但最优的序数损失（EMD, MCE & WK, CDW-CE）在测试集上均持续优于交叉熵。

3.4. 模型可解释性可视化

Grad-CAM++可视化显示，无论使用交叉熵损失还是序数损失，模型均能持续关注乳腺腺体区域，而非背景或伪影。这表明模型的决策基于解剖学相关特征，具有临床合理性。标签平滑对注意力模式影响甚微，而不同序数损失函数产生的可视化结果与交叉熵相似，证实了模型行为的稳定性和可解释性。

3.5. 最佳模型

综合所有实验结果，最终选定使用EMD损失函数和数据集级别平衡策略。并将输入图像分辨率从512 × 512提升至1024 × 1024。这一最终配置在VinDr验证集和INBreast测试集上均取得了进一步的性能提升，证明了高分辨率结合序数优化策略的有效性。

4. 讨论

本研究结果表明，在固定模型架构的前提下，通过精心选择损失函数和数据平衡策略，即可显著提升BI-RADS分类器的性能。数据集级别平衡对于处理多源异构数据至关重要，能有效提升模型的泛化能力。而序数损失函数，特别是EMD，通过将优化目标与BI-RADS标签固有的序数结构对齐，带来了超越标准交叉熵的临床相关性能改善，这体现在更高的AUROC和宏F1分数，以及减少严重误分类的潜力上。

相比之下，标签平滑并未产生显著影响，提示针对此任务，需要更特化的正则化方法而非通用的输出分布平滑。

研究的局限性包括：排除了BI-RADS 3类别；将BI-RADS 4-6合并为单一恶性类别，损失了部分序数粒度；由于数据集规模和种子间变异，观察到的改进幅度相对适中；以及公开数据集可能无法完全代表真实临床环境的多样性。

未来研究方向包括：将序数分类策略扩展到其他医学序数预测任务（如癌症分级、糖尿病视网膜病变分期）；探索在自动化或联邦学习设置下的数据平衡协议；以及在前瞻性临床工作流中验证这些方法，并进一步集成可解释性工具以增强临床医生的信任。

5. 结论

本研究首次在BI-RADS乳腺X线摄影分类任务中，在控制架构和数据的条件下，系统比较了序数感知损失函数。研究证明，将学习目标与临床标签的序数结构对齐，是一种简单而有效的方法，能够提升模型的准确性、鲁棒性和临床相关性。即使不改变网络架构，通过损失函数设计和数据平衡策略的优化也能实现显著增益。

这项工作为医学人工智能中更广泛地采用序数原则提供了依据，强调了在设计医疗AI系统时，考虑临床语义和任务内在结构的重要性。研究框架可重现，为其他医学序数分类任务的评估提供了参考。未来的工作可以探索多架构集成、领域鲁棒性训练和元数据整合，以进一步推动临床可信赖的AI发展。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部