图像分类是计算机视觉中的一个基本问题,是许多实际应用的核心组成部分[1],[2]。随着智能系统的快速发展,图像分类已被广泛应用于医疗诊断,例如自动红细胞计数和基于血液涂片的身份验证,在这些应用中,即使在有限的标记数据下也能实现准确识别[3],[4]。在交通和物流领域,图像分类支持包括船舶类型分类和驾驶行为分析等应用,这些应用通常涉及动态环境和以前未见过的类别[5],[6]。在考古学和文化遗产领域,化石分类和石器微磨损分析等任务依赖于视觉分类来支持大规模、非侵入性的历史文物分析[7],[8],[9]。图像分类在工业检测中也起着重要作用,包括在线3D测量和对高反射率或漫反射物体的检测,在这些应用中收集详尽的标记样本往往不切实际[10],[11]。在环境科学和农业领域,土地使用和土地覆盖分类以及植物病害检测和分类等应用[12],[13],需要能够在新区域、新条件和以前未见过的类别下稳健泛化的模型。
在这些多样化的应用场景中,视觉识别系统经常需要在复杂的背景、变化的上下文和有限的监督下运行,因此模型需要关注与任务相关的区域或特征,同时抑制无关信息。因此,注意力机制[14]在深度学习中得到了广泛探索,以增强特征表示和在具有挑战性的视觉任务中的鲁棒性。代表性的研究包括动态注意力匹配和图注意力网络[15],[16]用于关系建模,它们明确捕获特征或实体之间的依赖性;认知波动增强注意力[17]机制,它们能够自适应地强调信息模式,以提高对噪声和不确定性的鲁棒性;多注意力框架[18]用于边缘投影轮廓测量[19],它们整合了互补的注意力线索,以在具有挑战性的成像条件下提高测量精度;以及混合或残差注意力网络[20],[21]用于工业视觉检测,它们细化多尺度特征并提高在复杂视觉环境中的区分能力。这些方法表明,引导模型注意力可以显著提高在复杂视觉条件下的判别能力。然而,大多数现有的基于注意力的方法是在封闭集和数据丰富的假设下开发的,依赖于足够的监督和相对稳定的类别分布。当只有少数标记样本可用时,注意力行为可能会变得有偏或不稳定,而且这些方法通常缺乏处理在现实世界部署中自然出现的未知类别的明确机制。
在许多现实世界的图像分类场景中,获取大规模标记数据既昂贵又耗时,甚至不可行,而未知或新类别在部署过程中自然会出现。这些实际限制激发了对开放集小样本视觉分类的兴趣日益增加,该分类旨在在极其有限的监督下识别已知和未知类别[22],[23],[24],[25]。为了应对数据稀缺和高标记成本[26],[27],现有研究主要通过微调对在大规模数据集上预训练的模型进行改进,利用它们的丰富表示来处理下游任务[23],[28],[29],[30],[31],[32],[33],[34]。然而,当只有少数标记样本可用时,这些策略通常会导致泛化能力不足和严重的知识遗忘,从而降低对未知类别的性能[35],[36],[37],[38],[39],[40]。
为了缓解这些限制,当前的开放集小样本学习方法主要遵循两个方向。一种方法是通过数据增强[41],[42],[43]来提高样本多样性,但通常会带来大量的计算开销(例如,基于GAN或扩散的生成[44]),并且在遇到未见过的类别时可能会进一步放大遗忘。另一种方法利用多模态预训练模型和参数高效的微调来提高泛化能力[28],[35],[45];然而,这些方法在已知类别识别方面的性能通常不如专门的封闭集模型。因此,在开放集小样本图像分类中,有效平衡已知类别的准确识别和对未见类别的稳健泛化仍然是一个未解决的挑战。
为了解决这个问题,本文提出了一种特征增强和原型对齐方法,称为ProtoConNet,该方法设计了一个开放集识别器来建立多个模型之间的连接,使得可以使用特定模型来处理开放集和封闭集样本,如图1所示。具体来说,ProtoConNet包括三个核心组件:基于聚类的数据选择(CDS)模块、上下文增强的语义细化(CSR)模块和原型对齐(PA)模块。为了避免随机选择样本所带来的不确定性,CDS模块使用聚类方法挖掘数据模式,同时保留样本的核心特征和多样性。CSR模块利用CDS模块选择的多样化样本提取丰富的上下文信息,并将其整合到图像特征中,从而打破样本主体和背景之间的虚假关联。随后,PA模块利用开放集识别器将图像表示与相应的类别原型对齐,减少它们之间的差异,同时放大已知和未知类别特征之间的距离,使ProtoConNet能够确定决策路径,充分利用不同模型的优势。
在两个数据集上进行了广泛的实验,并对三个组件进行了性能比较和消融研究,以及对关键组件的案例研究。实验结果表明,ProtoConNet提高了模型在小样本场景中对图像主体的关注度,并有效地区分了已知和未知类别。总之,本研究有三个主要贡献:
- •
本文提出了一个基于Jittor框架的模型无关框架(ProtoConNet),可以作为一个即插即用的组件集成到任何骨干网络中。
- •
实验发现,小样本学习往往会降低模型对未见环境中图像主体的关注度。整合来自多样化样本的上下文信息可以缓解这个问题,从而提高模型的泛化能力。
- •
整个实验代码是使用Jittor框架实现的,我们通过添加几个自定义功能(包括Jittor版本中的Grad-CAM和IVLP模型)为Jittor平台的发展做出了贡献。
本文的其余部分组织如下。第2节回顾了有关聚类方法、小样本学习、开放集识别和小样本开放集识别的相关文献。第3节根据竞赛协议正式化了问题设置和评估目标,明确了训练约束、已知/新类别的构建以及封闭集(TestA)和开放集(TestB)评估的定义。第4节详细介绍了提出的ProtoConNet框架,包括其整体流程、关键模块和训练策略,并解释了所提出的设计如何改进已知类别的表示学习,同时提高对未知类别的鲁棒性。第5节报告了实验设置和结果,包括基准描述、实现细节、与最先进基线的比较以及额外的分析,如消融研究和参数敏感性分析。最后,第6节总结了本文并讨论了局限性和未来方向。