细粒度视觉分类(FGVC)能够对更广泛类别内的子类别进行精确分类,例如相似的物种或品牌,应用于生物多样性监测和智能交通[1]。与一般图像分类相比,由于姿态、视角和背景因素导致的类别间差异微妙以及类别内变化显著,FGVC面临更大的挑战。
近年来,FGVC方法已经从基于CNN的方法发展到基于Transformer的方法。早期的基于CNN的方法依赖于手动标注的部分级信息或区域提案网络,但难以同时捕捉全局结构和细粒度的局部细节。随后,基于Transformer的方法通过自注意力机制有效地建模了长距离依赖性,但对局部特征的敏感性不足[2]。
鉴于FGVC本质上需要分析形状、纹理和部分关系等多粒度线索,这些局限性变得尤为明显——这是当前单一路径和同构架构常常不足的地方[3]。有效处理这些不同的视觉线索仍然是一个关键瓶颈。
如今,专家混合(MoE)模型通过使用门控网络来协调各个专家,在自然语言处理(NLP)[4]和一般视觉任务[5]中取得了成功。然而,将MoE架构应用于解决FGVC的具体多粒度挑战仍然相对较少。
由于FGVC的区分通常依赖于微妙的差异(例如形状、组件、纹理),因此需要专门的特征提取器。这自然激发了我们设计异构MoE架构的动机,在该架构中,可以定制专门的专家来捕捉对细粒度区分至关重要的特定粒度线索。
因此,我们提出了FG-MoE,这是一种结合了多专家协作与竞争的细粒度视觉分类模型,具有自适应路由和门控功能。我们的框架整合了一个多尺度金字塔(MSP)模块和一个特定的MoE系统,该系统包含五种专门的专家:全局结构、区域属性、局部细节、纹理模式和部分交互。一个空间门控网络实现了动态的专家路由,而平衡和多样性正则化确保了专精性而不发生崩溃。主要贡献包括:
• 我们提出了一种特定的多尺度金字塔结构,该结构融合了多尺度信息并应用了专门的注意力增强机制,使模型能够专注于判别区域并为专家处理提供丰富的视觉线索。
• 我们构建了一个异构MoE系统,其中包含五种专门的专家,分别捕获全局语义、区域对比、局部细节、多方向纹理和基于部分的关系,以实现基于神经科学理论的互补特征提取。
• 我们设计了一个空间感知的门控机制,根据每张图像的内容动态选择最佳的专家组合,从而有效地处理FGVC任务。
• 我们引入了专家平衡和多样化策略,以防止退化并确保专精性,解决了“赢者通吃”的问题,同时促进了多样化的学习。
本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了所提出的FG-MoE框架。第4节展示了实验结果和分析。第5节总结了我们的工作。