近年来,深度神经网络(DNNs)在计算机视觉领域取得了显著进展,广泛应用于图像分类[1]、目标检测[2]和自然语言处理[3]。然而,除了准确性之外,模型置信度的可靠性同样关键,特别是在自动驾驶[4]、医疗诊断[5]和信用风险预测[6]等高风险场景中。在这些领域,可靠的置信度估计对于安全和可信的决策至关重要,使得模型校准成为一项极其重要的任务。
理想情况下,模型置信度应该与实际的正确性概率相匹配。例如,置信度为0.7的预测应该大约70%的时间是正确的。然而,在实践中,许多DNN存在校准误差——预测的置信度往往与实际准确性不匹配,并且倾向于过度自信[7]——这会损害下游决策。
为了解决预测置信度和实际准确性之间的不匹配问题,校准方法受到了越来越多的关注。这些方法通常分为训练时和事后两种方法。在后者的方法中,温度缩放[7]在训练后调整softmax温度。虽然在分布内设置下表现良好,但在面对分布偏移时缺乏鲁棒性[8]。相比之下,训练时方法将校准直接纳入模型学习过程中。例如,焦点损失[9]、标签平滑[10]和Mixup[11]——最初是为了提高泛化能力而开发的——已经显示出在增强校准方面的次要好处。更近期的方法[12]、[13]通过引入显式的正则化策略进一步推进了这一方向,这些策略直接约束模型置信度或不确定性估计。
现有研究表明,分类器结构显著影响模型校准。一些工作通过将特征提取与分类解耦来改进校准[14],而另一些工作则基于弱分类器假设采用渐进式层冻结[15]。这些校准问题背后的一个核心挑战是分类器偏移现象——训练有素的分类器与保持类间平衡分离和有意义预测不确定性的理想几何形状之间的偏差。这种偏移可能表现为过度自信或置信度不足,直接导致校准错误。
基于这些发现,我们认为分类器是校准错误的主要来源。实证分析揭示了预测置信度和实际准确性之间的一致偏差,我们将其归因于分类器偏移。这种偏移通常由过拟合或次优优化引起,扭曲了决策几何形状。我们证明,规范分类器结构可以有效缓解这种偏移,从而解决过度自信和置信度不足的问题。受现有方法局限性的启发,我们旨在设计一种轻量级的、特定于分类器的训练方法,以改进校准而不干扰特征学习。
为此,我们提出了
MaC-Cal(基于掩码的分类器校准),这是一种通过将随机稀疏性引入分类器来提高置信度可靠性的校准框架。MaC-Cal采用两阶段训练过程:第一阶段联合训练特征提取器和分类器,而第二阶段在掩码下重新训练分类器。为了提高灵活性并避免固定稀疏性的不稳定性,我们进一步引入了一种自适应稀疏机制,其中掩码保留概率根据预测置信度和实际准确性之间的偏差动态调整。我们的方法简单有效,与模型无关,易于集成到现有流程中。它适用于不同的架构和数据集。本工作的主要贡献总结如下:
•我们确定分类器偏移是校准错误的关键原因,为其减少提供了新的视角。
•我们提出了MaC-Cal,这是一种新颖的两阶段训练框架,它利用随机掩码和自适应稀疏性来规范分类器,有效缓解过度自信和置信度不足的问题。
•广泛的实验表明,MaC-Cal在各种模型和数据条件下实现了先进的校准性能和鲁棒性。
部分摘录
置信度校准
校准旨在缓解预测置信度和实际准确性之间的不匹配,这在深度神经网络中通常表现为过度自信。校准方法大致可以分为两类:训练时和事后方法。温度缩放(TS)[7]是一种广泛使用的事后校准方法,它在训练后调整softmax温度参数。尽管TS在分布内设置下表现良好,[8]表明它在面对分布偏移时存在局限性
背景
考虑一个数据集,其中是一个输入样本,是来自K类的相应标签。设N表示样本总数,nk表示类别k中的样本数量,即。我们使用一个特征提取器,其参数为θ,以及一个线性分类器作为模型组件。特征提取器将输入xi映射到一个d维表示,表示最后一层的特征。然后分类器计算
动机与分析
先前的研究表明,模型校准错误通常源于过拟合,特别是由于分类器训练过度[14]、[15]。如图1(a)所示,使用交叉熵损失训练的简单模型显示出高度集中在高置信度区域的置信度分布。图1(b)和(c)进一步表明,这种分布与实际准确性存在偏差。我们将这种差异归因于分类器级别的结构扭曲,称为
实施细节
骨干网络和数据集我们在几种架构上评估了我们的方法,包括ResNet-50、ResNet-110 [26]、WRN-26-10 [27]、DenseNet-121 [28]和ViT [29],在CIFAR-10/100 [30]、Tiny-ImageNet /ImageNet-1K [31]以及医学皮肤病数据集HAM10000 [32]上进行校准性能测试。为了全面评估模型的鲁棒性,我们考虑了三个OOD数据集,包括SVHN [33]、CIFAR-10-C和CIFAR-100-C [34],这些数据集包含各种类型的合成噪声和输入扰动。