FG-MoE：一种用于细粒度视觉分类的异构专家混合模型

时间：2026年1月6日

来源：Pattern Recognition

编辑推荐：

细粒度视觉分类中的多级特征提取与互补信息整合是核心挑战。本文提出FG-MoE混合专家模型，通过多尺度金字塔模块融合全局与局部特征，并设计五个专家模块分别处理结构、语义、细节、纹理及部件交互，结合空间感知门控动态分配任务，同时采用平衡约束和多样性正则化优化训练。在三个基准数据集上验证了有效性。

Songming Yang|Jing Wen|Bin Fang

重庆大学计算机科学学院，中国重庆，401331

摘要

细粒度视觉分类（FGVC）是一项具有挑战性的任务，因为类别间的差异微妙且类别内的变化显著。大多数现有方法难以同时捕捉多层次的判别特征并有效整合互补的视觉信息。为了解决这些挑战，我们提出了细粒度专家混合模型（FG-MoE），这是一种用于细粒度视觉分类的新型异构专家混合模型。我们的方法引入了一个专门的多尺度金字塔模块，该模块聚合了多尺度信息，并通过空间和通道注意力机制增强了特征表示。受人类大脑视觉处理机制的神经科学见解启发，FG-MoE采用了五种专注于不同视觉线索的专家：全局结构、区域语义、局部细节、纹理和部分级交互。一个空间感知的门控机制为每张输入图像动态选择合适的专家组合。我们进一步设计了一种新颖的多阶段训练策略，并采用平衡约束以及多样性和正交性正则化来确保学习的平衡并促进专家的多样化专精。最终的分类结果利用了所有选定专家的融合特征。在三个广泛使用的FGVC数据集上的广泛实验表明，FG-MoE在性能上显著优于基础模型，并在所有这些基准测试中取得了最先进的结果，验证了我们方法的有效性和鲁棒性。

引言

细粒度视觉分类（FGVC）能够对更广泛类别内的子类别进行精确分类，例如相似的物种或品牌，应用于生物多样性监测和智能交通[1]。与一般图像分类相比，由于姿态、视角和背景因素导致的类别间差异微妙以及类别内变化显著，FGVC面临更大的挑战。

近年来，FGVC方法已经从基于CNN的方法发展到基于Transformer的方法。早期的基于CNN的方法依赖于手动标注的部分级信息或区域提案网络，但难以同时捕捉全局结构和细粒度的局部细节。随后，基于Transformer的方法通过自注意力机制有效地建模了长距离依赖性，但对局部特征的敏感性不足[2]。

鉴于FGVC本质上需要分析形状、纹理和部分关系等多粒度线索，这些局限性变得尤为明显——这是当前单一路径和同构架构常常不足的地方[3]。有效处理这些不同的视觉线索仍然是一个关键瓶颈。

如今，专家混合（MoE）模型通过使用门控网络来协调各个专家，在自然语言处理（NLP）[4]和一般视觉任务[5]中取得了成功。然而，将MoE架构应用于解决FGVC的具体多粒度挑战仍然相对较少。

由于FGVC的区分通常依赖于微妙的差异（例如形状、组件、纹理），因此需要专门的特征提取器。这自然激发了我们设计异构MoE架构的动机，在该架构中，可以定制专门的专家来捕捉对细粒度区分至关重要的特定粒度线索。

因此，我们提出了FG-MoE，这是一种结合了多专家协作与竞争的细粒度视觉分类模型，具有自适应路由和门控功能。我们的框架整合了一个多尺度金字塔（MSP）模块和一个特定的MoE系统，该系统包含五种专门的专家：全局结构、区域属性、局部细节、纹理模式和部分交互。一个空间门控网络实现了动态的专家路由，而平衡和多样性正则化确保了专精性而不发生崩溃。主要贡献包括：

• 我们提出了一种特定的多尺度金字塔结构，该结构融合了多尺度信息并应用了专门的注意力增强机制，使模型能够专注于判别区域并为专家处理提供丰富的视觉线索。

• 我们构建了一个异构MoE系统，其中包含五种专门的专家，分别捕获全局语义、区域对比、局部细节、多方向纹理和基于部分的关系，以实现基于神经科学理论的互补特征提取。

• 我们设计了一个空间感知的门控机制，根据每张图像的内容动态选择最佳的专家组合，从而有效地处理FGVC任务。

• 我们引入了专家平衡和多样化策略，以防止退化并确保专精性，解决了“赢者通吃”的问题，同时促进了多样化的学习。

本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了所提出的FG-MoE框架。第4节展示了实验结果和分析。第5节总结了我们的工作。