融合CNN与Transformer的伪装目标检测网络CTF-Net：跨域特征调制与边界感知新范式

时间：2025年6月22日

来源：Computer Vision and Image Understanding

编辑推荐：

针对伪装目标检测(COD)中全局上下文与局部细节难以协同建模的难题，研究者提出CNN-Transformer融合网络(CTF-Net)，通过并行双分支编码器提取互补特征，创新性开发跨域融合模块(CDFM)、边界感知模块(BAM)和特征增强模块(FEM)，在四个主流数据集上F-measure提升达5.1%，为农业害虫识别、工业缺陷检测等下游应用提供新解决方案。

在自然界中，生物通过改变颜色或纹理实现完美伪装，这种进化策略给计算机视觉中的目标检测带来巨大挑战。伪装目标检测(COD)旨在识别与背景高度相似的隐藏物体，其技术瓶颈在于如何同时捕捉全局上下文关系和局部空间细节。尽管卷积神经网络(CNN)擅长提取局部特征，但受限于感受野范围；而视觉Transformer(ViT)虽能建模长程依赖，却可能丢失边缘结构。现有方法如SINetv2(Fan et al., 2021)和ASBI(Zhang et al., 2023)等CNN方案难以建模全局关系，而SARNet(Xing et al., 2023)等纯Transformer方法又易忽略局部细节，这种"顾此失彼"的现象严重制约了COD性能。

为解决这一核心矛盾，来自国内的研究团队创新性地提出CTF-Net网络架构。该工作通过并行CNN-Transformer双分支编码器实现特征互补，并设计三大核心模块：跨域融合模块(CDFM)采用交叉调制策略实现特征深度融合；边界感知模块(BAM)整合低层边缘信息与高层语义；特征增强模块(FEM)有效抑制背景干扰。在NC4K等四个基准数据集上，该方法F-measure指标显著提升5.1%，相关成果发表于《Computer Vision and Image Understanding》。

关键技术包括：1) 基于CNN-Transformer的并行编码器架构；2) 跨域特征调制融合技术(CDFM)；3) 多尺度边界特征提取模块(BAM)；4) 跨层特征增强机制(FEM)。实验使用CHAMELEON、CAMO、COD10K和NC4K四个公开数据集进行评估。

【网络架构设计】
研究团队构建的CTF-Net采用编码器-解码器结构。编码器阶段，CNN分支通过卷积核局部感知提取空间细节，Transformer分支利用自注意力机制捕获全局上下文。这种双轨设计突破了传统单模态特征提取的局限性。

【跨域融合模块】
CDFM模块创新性地引入交叉调制机制，通过建立特征域间的动态权重映射，实现CNN局部特征与Transformer全局特征的有机融合。实验表明该模块使模型在复杂背景下的检测准确率提升2.3%。

【边界感知优化】
针对伪装物体边缘模糊的难题，BAM模块将浅层卷积特征中的边缘信息与深层Transformer特征的语义上下文相结合。定量分析显示，该设计使边界F-score指标提高1.8%。

【特征增强机制】
FEM模块在特征金字塔融合过程中，通过通道注意力筛选有效特征，抑制背景噪声干扰。消融实验证实，该模块能减少23%的误检率。

这项研究的重要意义在于：首次系统论证了CNN-Transformer混合架构在COD任务中的优越性，提出的CDFM特征融合范式为多模态视觉理解提供了新思路。特别值得注意的是，BAM模块揭示边界特征对伪装检测的关键作用，这一发现对医学图像分割等领域具有普适性价值。尽管在极端低对比度场景仍存在局限，但CTF-Net为突破生物特征识别的"伪装屏障"提供了切实可行的技术路径。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部