PCT-ViT：一种结合细粒度感知增强与反事实令牌选择的视觉Transformer

时间：2025年12月2日

来源：Digital Signal Processing

编辑推荐：

细粒度视觉分类中，针对Transformer在局部关键区域关注不足、静态位置编码限制空间适应性以及冗余令牌干扰等问题，提出PCT-ViT框架。通过双路径语义感知模块增强局部特征关注，动态位置编码模块提升空间结构适应性，鉴别性令牌选择机制优化令牌冗余问题。实验表明PCT-ViT在多个细粒度数据集上显著优于CNN和Transformer基线方法。

本文针对细粒度视觉分类（FGVC）任务中存在的关键挑战，提出了一种名为PCT-ViT的视觉Transformer架构。FGVC任务要求模型在高度相似的类别间（如鸟类物种识别、医学影像病灶分类等）准确捕捉局部细微差异，这对模型的区域聚焦能力、空间结构适应性和注意力机制优化提出了更高要求。现有研究虽在局部引导、多分支特征融合等方面取得进展，但主要基于CNN架构，存在深度依赖性强、对空间变换敏感等固有局限。而Transformer虽然具备全局建模优势，但在细粒度任务中仍面临局部特征聚焦不足、位置编码僵化、冗余注意力扩散等问题。

核心创新体现在三个模块协同优化：首先，双路径语义感知模块（DPM）通过融合全局通道上下文与局部空间响应，在特征提取初期便引导模型关注关键区域。这种设计既保留了Transformer的全局建模能力，又通过通道语义建模增强对类别间微小差异的敏感度。其次，动态位置编码模块（DPE）突破传统静态位置编码的局限，采用可学习的非线性映射网络，使位置信息能自适应调整几何关系。这种动态编码机制显著提升了模型对旋转、缩放等空间变换的鲁棒性。最后，反事实令牌选择机制（CTS）通过多尺度注意力融合和扰动敏感性分析，实现关键令牌的精准筛选与冗余抑制。实验表明，该机制能有效过滤背景噪声干扰，强化关键区域表征。

在技术实现层面，DPM采用级联结构：通道路径通过全局平均池化与瓶颈结构提取跨区域语义关联，空间路径则通过通道级池化-卷积组合生成局部注意力图。两者协同作用，使特征提取过程能早期锁定潜在关键区域。DPE通过可调参数α实现静态与动态位置编码的融合，这种设计既保证了位置信息的基准结构，又赋予其自适应调整能力。当检测到图像存在非标准构图或视角变化时，动态编码能自动重构位置关联。CTS模块则创新性地将多层级注意力特征进行加权融合，形成多层次判别信息，再通过反向扰动测试识别敏感性最高的关键令牌，最终生成优化的令牌序列。

实验验证部分选取了四个经典FGVC数据集：CUB-200-2011（鸟类）、Stanford Dogs（犬类）、NABirds（鸟类扩展集）、Food-101（食品分类）。对比实验表明，PCT-ViT在保持模型轻量化的前提下，展现出显著优势：在CUB数据集上达到98.2%的Top-1准确率，较传统Transformer提升3.1%；Stanford Dogs数据集的mAP提升达4.7%，特别是在识别耳朵形状差异和面部斑纹等细粒度特征时表现突出。该模型对图像裁剪、背景干扰等鲁棒性测试显示，在90%的测试案例中，模型仍能保持关键区域识别准确率超过85%。

研究进一步揭示了模型在跨数据集迁移中的优势：通过微调（仅调整最后一层）即可在医疗影像缺陷分类等新场景达到90%以上的准确率。这种泛化能力得益于DPE模块的动态位置编码机制，其训练过程中积累的跨领域位置关联知识，使得模型能快速适应新场景的空间分布特征。在计算效率方面，模型通过令牌选择性计算（仅保留关键令牌参与后续计算）将计算量降低约35%，同时保持与完整令牌计算相当的性能水平。

本文的主要贡献可归纳为：1）提出双路径语义感知框架，解决Transformer初期特征提取时难以聚焦关键区域的痛点；2）构建动态位置编码系统，突破静态位置编码在复杂空间变换中的适应性瓶颈；3）开发基于扰动敏感性的令牌选择机制，实现从冗余令牌到关键特征的有效过滤。这些创新共同构建了细粒度视觉分类的完整优化链条，从特征感知到空间建模再到注意力调控，形成系统化的技术突破。

后续研究计划包括：将动态位置编码机制扩展至视频时序建模；探索令牌选择机制在医学图像分析中的迁移应用；开发轻量化版本以适应边缘计算场景。这些延伸方向将有助于深化模型在细粒度认知任务中的通用性，为智能视觉系统提供更可靠的底层架构支撑。当前模型在中文场景中的表现尚未验证，未来可结合多模态数据增强跨文化细粒度识别能力，进一步拓展应用范围。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部