压缩类别不平衡样本较少的模型:一次分布外的探索

时间:2026年1月16日
来源:Pattern Recognition Letters

编辑推荐:

针对少数样本模型压缩中类别不平衡问题,提出动态OOD样本增强框架,结合联合蒸馏损失和类依赖正则化有效缓解性能下降,实验验证效果显著。

广告
   X   

吴天双|刘申焕|王彦彦|陈宁|曲志豪|叶宝柳
水利部水大数据技术重点实验室,河海大学计算机科学与软件工程学院,南京,211100,中国

摘要

少样本模型压缩旨在仅使用少量样本将大型预训练模型压缩为紧凑模型。然而,以往的方法通常假设类别分布是平衡的,这在数据极度稀缺的情况下代价很高。在类别不平衡的情况下,压缩模型的性能会显著下降。我们提出了一种名为OOD增强型少样本模型压缩(OE-FSMC)的新框架,该框架引入了具有动态分配标签的离分布(OOD)样本,以防止压缩过程中的偏差。为了避免过拟合OOD样本,我们结合了联合蒸馏损失和类别依赖的正则化项。在多个基准数据集上的广泛实验表明,我们的框架可以无缝集成到现有的少样本模型压缩方法中,有效缓解了由类别不平衡引起的准确性下降。

引言

随着深度学习模型的规模和复杂性的增加,它们需要越来越多的计算和存储资源,这限制了它们在摄像头或智能手表等边缘设备上的部署。为了压缩模型,网络剪枝方法[1]、[2]尝试移除不太重要的权重或通道,而知识蒸馏方法[3]让紧凑模型从预训练模型的软标签中学习,量化方法[4]、[5]尝试降低模型权重和激活的精度。然而,这些方法通常依赖于大型数据集来保持性能,而在隐私、安全或数据获取受限的现实世界场景中,这往往不切实际。
在医疗和金融等领域,由于敏感数据受到严格限制,少样本模型压缩方法[6]、[7]、[8]、[9]、[10]作为隐私和性能之间的折中方案而变得尤为重要。例如,一个小型医院可能没有足够的本地数据从头开始训练高质量的模型。通过使用少样本压缩技术,它可以采用来自大型机构的预训练模型,并利用其有限的数据对该模型进行压缩和微调(参见图1)。这种范式使得在边缘设备上实现轻量级部署成为可能,同时避免了直接使用数据。
尽管以往的少样本模型压缩策略在利用有限数据优化模型性能方面取得了有希望的结果,但它们没有考虑到在少样本设置下类别不平衡发生的高概率。这些方法假设在NK次射击设置(即每个类别K个样本)下类别分布是平衡的,而这很少反映现实世界的情况。例如,在医疗诊断中(参见图1),常见疾病占主导地位,而像癌症这样的罕见疾病样本不足。这种不平衡引入了训练偏差,并扭曲了压缩过程,通常降低了模型保留少数类信息的能力。此外,压缩过程的复杂性导致类别不平衡的影响在各个阶段累积。如表1所示,这些挑战使得大多数传统的类别不平衡缓解策略在少样本压缩场景下无效。
为了解决这些挑战,我们提出了一种新的框架——OOD增强型少样本模型压缩(OE-FSMC),它在压缩过程中结合了离分布(OOD)样本以实现动态平衡。受开放采样[11]的启发,对于每个OOD实例,我们从预定义的互补分布中采样标签来重新平衡类别先验。不同的是,我们根据压缩的复杂性动态调整这种分布策略。为了处理样本很少甚至为零的极端情况,我们引入了拉普拉斯平滑。此外,我们引入了联合蒸馏损失和类别依赖的正则化项,以防止模型过拟合OOD样本。我们的主要贡献可以总结如下:
  • 据我们所知,我们是第一个指出并解决少样本模型压缩中类别不平衡问题的。
  • 我们提出了一种新的框架——OOD增强型少样本模型压缩(OE-FSMC),它利用离分布数据在压缩过程中缓解类别不平衡问题。
  • 我们的方法可以轻松与主流的少样本模型压缩方法集成,增强它们对类别不平衡的鲁棒性。此外,它不依赖于特定的模型架构。
  • 部分摘录

    少样本模型压缩

    少样本模型压缩旨在使用少量样本从预训练的过参数化网络中生成紧凑模型。Bai等人[7]开发了交叉蒸馏(CD),该方法通过交错教师网络和学生网络的隐藏层来抑制层间误差传播。FSKD[6]在学生网络块上引入了可学习的1×1卷积,优化辅助参数以弥合块级表示与教师模型之间的差距。MiR[8]对教师网络的倒数第二层的输出进行了对齐

    问题定义

    少样本模型压缩的目标是从预训练的冗余模型中使用少量样本获得紧凑模型,用于多类分类任务,其中输入空间由XRd表示,标签空间Y{1, ……, K}。预训练模型在完整数据集Dfull={(xi, yi)i=1N, xiX, yiY上进行训练,该数据集包含N个样本。在少样本设置下,用于压缩的数据集表示为Dfew={(xi, yi)i=1M, xiX, yiY,包含M个样本,其中M远小于N。设mj表示

    实验

    为了解决以下研究问题,我们在三个公开可用的数据集上进行了广泛的实验:
  • RQ1:类别不平衡是否是少样本模型压缩方法的一个严重问题?
  • RQ2:我们的框架能否有效缓解少样本模型压缩中的类别不平衡问题?它是否与当前最先进的少样本模型压缩方法兼容?
  • RQ3:我们框架的每个组成部分的效果如何?
  • 结论

    在本文中,我们提出了OE-FSMC,这是一种新的少样本模型压缩框架,它通过利用OOD样本在压缩过程中增强了对类别不平衡的鲁棒性。据我们所知,我们是第一个在少样本模型压缩的背景下识别并解决类别不平衡问题的。我们遵循了开放采样[11]的标签分配思想,但进一步为少样本场景集成了拉普拉斯平滑,并动态调整了

    CRediT作者贡献声明

    吴天双:撰写——原始草案、方法论、形式分析、概念化。刘申焕:撰写——审阅与编辑、监督、项目管理、资金获取。王彦彦:撰写——审阅与编辑、验证、资源准备。陈宁:撰写——审阅与编辑、监督、项目管理、资金获取。曲志豪:撰写——审阅与编辑、验证、资金获取。叶宝柳:撰写——审阅与编辑、验证、资金获取。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(62306104)、香港学者计划(XJ2024010)、香港特别行政区政府研究资助委员会(CityU11212524)、江苏省自然科学基金(BK20230949)、中国博士后科学基金(2023TQ0104)和江苏省博士后计划(2023ZB140)的支持。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有