随着深度学习模型的规模和复杂性的增加,它们需要越来越多的计算和存储资源,这限制了它们在摄像头或智能手表等边缘设备上的部署。为了压缩模型,网络剪枝方法[1]、[2]尝试移除不太重要的权重或通道,而知识蒸馏方法[3]让紧凑模型从预训练模型的软标签中学习,量化方法[4]、[5]尝试降低模型权重和激活的精度。然而,这些方法通常依赖于大型数据集来保持性能,而在隐私、安全或数据获取受限的现实世界场景中,这往往不切实际。
在医疗和金融等领域,由于敏感数据受到严格限制,少样本模型压缩方法[6]、[7]、[8]、[9]、[10]作为隐私和性能之间的折中方案而变得尤为重要。例如,一个小型医院可能没有足够的本地数据从头开始训练高质量的模型。通过使用少样本压缩技术,它可以采用来自大型机构的预训练模型,并利用其有限的数据对该模型进行压缩和微调(参见图1)。这种范式使得在边缘设备上实现轻量级部署成为可能,同时避免了直接使用数据。
尽管以往的少样本模型压缩策略在利用有限数据优化模型性能方面取得了有希望的结果,但它们没有考虑到在少样本设置下类别不平衡发生的高概率。这些方法假设在N到K次射击设置(即每个类别K个样本)下类别分布是平衡的,而这很少反映现实世界的情况。例如,在医疗诊断中(参见图1),常见疾病占主导地位,而像癌症这样的罕见疾病样本不足。这种不平衡引入了训练偏差,并扭曲了压缩过程,通常降低了模型保留少数类信息的能力。此外,压缩过程的复杂性导致类别不平衡的影响在各个阶段累积。如表1所示,这些挑战使得大多数传统的类别不平衡缓解策略在少样本压缩场景下无效。
为了解决这些挑战,我们提出了一种新的框架——OOD增强型少样本模型压缩(OE-FSMC),它在压缩过程中结合了
离分布(OOD)样本以实现动态平衡。受开放采样[11]的启发,对于每个OOD实例,我们从预定义的互补分布中采样标签来重新平衡类别先验。不同的是,我们根据压缩的复杂性动态调整这种分布策略。为了处理样本很少甚至为零的极端情况,我们引入了拉普拉斯平滑。此外,我们引入了联合蒸馏损失和类别依赖的正则化项,以防止模型过拟合OOD样本。我们的主要贡献可以总结如下:
•据我们所知,我们是第一个指出并解决少样本模型压缩中类别不平衡问题的。
•我们提出了一种新的框架——OOD增强型少样本模型压缩(OE-FSMC),它利用离分布数据在压缩过程中缓解类别不平衡问题。
•我们的方法可以轻松与主流的少样本模型压缩方法集成,增强它们对类别不平衡的鲁棒性。此外,它不依赖于特定的模型架构。