本文针对细粒度视觉分类(FGVC)任务中存在的关键挑战,提出了一种名为PCT-ViT的视觉Transformer架构。FGVC任务要求模型在高度相似的类别间(如鸟类物种识别、医学影像病灶分类等)准确捕捉局部细微差异,这对模型的区域聚焦能力、空间结构适应性和注意力机制优化提出了更高要求。现有研究虽在局部引导、多分支特征融合等方面取得进展,但主要基于CNN架构,存在深度依赖性强、对空间变换敏感等固有局限。而Transformer虽然具备全局建模优势,但在细粒度任务中仍面临局部特征聚焦不足、位置编码僵化、冗余注意力扩散等问题。
核心创新体现在三个模块协同优化:首先,双路径语义感知模块(DPM)通过融合全局通道上下文与局部空间响应,在特征提取初期便引导模型关注关键区域。这种设计既保留了Transformer的全局建模能力,又通过通道语义建模增强对类别间微小差异的敏感度。其次,动态位置编码模块(DPE)突破传统静态位置编码的局限,采用可学习的非线性映射网络,使位置信息能自适应调整几何关系。这种动态编码机制显著提升了模型对旋转、缩放等空间变换的鲁棒性。最后,反事实令牌选择机制(CTS)通过多尺度注意力融合和扰动敏感性分析,实现关键令牌的精准筛选与冗余抑制。实验表明,该机制能有效过滤背景噪声干扰,强化关键区域表征。
在技术实现层面,DPM采用级联结构:通道路径通过全局平均池化与瓶颈结构提取跨区域语义关联,空间路径则通过通道级池化-卷积组合生成局部注意力图。两者协同作用,使特征提取过程能早期锁定潜在关键区域。DPE通过可调参数α实现静态与动态位置编码的融合,这种设计既保证了位置信息的基准结构,又赋予其自适应调整能力。当检测到图像存在非标准构图或视角变化时,动态编码能自动重构位置关联。CTS模块则创新性地将多层级注意力特征进行加权融合,形成多层次判别信息,再通过反向扰动测试识别敏感性最高的关键令牌,最终生成优化的令牌序列。
实验验证部分选取了四个经典FGVC数据集:CUB-200-2011(鸟类)、Stanford Dogs(犬类)、NABirds(鸟类扩展集)、Food-101(食品分类)。对比实验表明,PCT-ViT在保持模型轻量化的前提下,展现出显著优势:在CUB数据集上达到98.2%的Top-1准确率,较传统Transformer提升3.1%;Stanford Dogs数据集的mAP提升达4.7%,特别是在识别耳朵形状差异和面部斑纹等细粒度特征时表现突出。该模型对图像裁剪、背景干扰等鲁棒性测试显示,在90%的测试案例中,模型仍能保持关键区域识别准确率超过85%。
研究进一步揭示了模型在跨数据集迁移中的优势:通过微调(仅调整最后一层)即可在医疗影像缺陷分类等新场景达到90%以上的准确率。这种泛化能力得益于DPE模块的动态位置编码机制,其训练过程中积累的跨领域位置关联知识,使得模型能快速适应新场景的空间分布特征。在计算效率方面,模型通过令牌选择性计算(仅保留关键令牌参与后续计算)将计算量降低约35%,同时保持与完整令牌计算相当的性能水平。
本文的主要贡献可归纳为:1)提出双路径语义感知框架,解决Transformer初期特征提取时难以聚焦关键区域的痛点;2)构建动态位置编码系统,突破静态位置编码在复杂空间变换中的适应性瓶颈;3)开发基于扰动敏感性的令牌选择机制,实现从冗余令牌到关键特征的有效过滤。这些创新共同构建了细粒度视觉分类的完整优化链条,从特征感知到空间建模再到注意力调控,形成系统化的技术突破。
后续研究计划包括:将动态位置编码机制扩展至视频时序建模;探索令牌选择机制在医学图像分析中的迁移应用;开发轻量化版本以适应边缘计算场景。这些延伸方向将有助于深化模型在细粒度认知任务中的通用性,为智能视觉系统提供更可靠的底层架构支撑。当前模型在中文场景中的表现尚未验证,未来可结合多模态数据增强跨文化细粒度识别能力,进一步拓展应用范围。