多层次全局上下文融合在伪装物体检测中的应用

时间：2026年1月29日

来源：Image and Vision Computing

编辑推荐：

伪装目标检测中多尺度上下文融合方法及性能提升研究。提出MGCF-Net框架，集成改进的PVTv2主干网络、跨尺度自注意力模块和融合引导特征模块，通过大核卷积增强全局感知能力，实验在多个基准数据集上检测精度提升2.2%-4.9%，MAE降低21.4%，并验证泛化能力至医学影像分割等任务。

Baichuan Shen|Yan Dou|Yaolei Li|Wenjun Zhang|Xiaoyan Wang

信息科学与工程学院，燕山大学，河北街，秦皇岛，066004，河北，中国

摘要

由于伪装物体与背景之间的对比度低、物体边缘形状的多样性以及复杂场景中的遮挡现象，现有的基于深度学习的伪装物体检测（COD）方法在实现高精度检测方面仍面临重大挑战。这些挑战包括难以提取小物体的多尺度细节特征、在遮挡场景中建模全局上下文，以及在复杂的边缘检测任务中准确区分物体与背景的边界。为了解决这些问题，本文提出了一种名为MGCF-Net（多级全局上下文融合网络）的新方法，该方法整合了多尺度上下文学习和特征融合。该方法采用改进的Pyramid Vision Transformer（PVTv2）作为骨干网络，并结合了Cross-Scale Self-Attention（CSSA）模块和Multi-scale Fusion Attention（MFA）模块。Guided Alignment Feature Module（GAFM）用于对齐多尺度特征，而大核卷积结构（SHRF）增强了全局上下文的捕获能力。在多个COD基准数据集上的实验结果表明，与排名第二的FEDER方法相比，所提出的方法在结构指标、平均增强指标和加权F指标上分别提高了2.2%、2.1%和4.9%，同时平均绝对误差（MAE）降低了21.4%。与几种最先进的方法（SOTA）相比，该方法在检测精度和泛化性能方面表现出显著优势。此外，该方法在相关任务（如息肉分割、COVID-19检测、肺部感染检测和缺陷检测）中也展示了出色的泛化能力。

引言

伪装物体检测（COD）是计算机视觉领域中的一个关键任务，旨在准确识别无缝融入复杂环境中的物体。在自然界中，许多生物（如变色龙和毛毛虫）利用颜色、纹理和环境融合等伪装策略来逃避捕食者。这一自然现象激发了研究人员开发相应的计算模型，从而在医学图像分割[1]、[2]、[3]、物种保护[4]和工业缺陷检测[5]等领域得到了广泛应用。这些应用不仅突显了对COD技术日益增长的需求，也强调了其在应对复杂检测挑战中的重要性。

尽管近年来COD技术取得了显著进展，但如图1所示，许多挑战依然存在。早期方法主要依赖于手工制作的特征[6]、[7]，这些方法难以处理伪装物体形状的复杂性，导致检测性能有限。随着深度学习的出现和大规模COD数据集（如COD10K[8]）的引入，基于深度学习的COD方法变得更为突出。这些方法利用神经网络自动提取多样化特征，在伪装物体检测[9]、[10]、[11]、[12]、[13]方面取得了显著改进。然而，由于伪装目标与背景之间的对比度低、目标形状的多样性以及遮挡现象，当前技术在高精度检测方面仍面临某些挑战。

在物体检测和分割任务中，多尺度上下文信息被广泛认为是提高检测精度的关键因素。这在处理小物体检测[14]、模糊外观物体[15]和复杂遮挡环境[16]等挑战时尤为重要。然而，在伪装物体检测（COD）中，由于伪装物体与其背景之间的对比度低、物体边缘形状的多样性以及复杂场景中的遮挡现象，模型面临更大的挑战。伪装物体与其背景之间的高度相似性使得检测任务尤为困难。传统方法依赖手工制作的特征来提取物体信息，在面对复杂物体形状时往往表现不佳。尽管深度学习的发展使得现有方法能够自动从数据中提取多样化特征，但在小物体检测和复杂背景下的性能仍不尽如人意。具体来说，在小物体检测中，现有技术难以有效捕获多尺度细节特征，导致边缘模糊、形状不清晰和识别精度降低[17]。在复杂遮挡场景中，模型对物体与背景之间全局上下文关系的建模能力较弱，限制了伪装物体的准确定位和检测。此外，由于物体边缘与背景区域之间的相似性，现有方法难以区分伪装物体与背景，进一步限制了检测精度。因此，现有方法在COD任务的高精度检测方面仍面临重大挑战。尽管深度学习方法在自动特征提取方面取得了突破，但在复杂场景中有效整合多尺度上下文信息并提高适应性和鲁棒性仍然是伪装物体检测中的紧迫挑战。

最近在物体检测方面的研究表明，模拟人类视觉系统的策略可以显著提高检测性能。例如，人类视觉机制中粗糙定位和精细聚焦策略的结合允许在复杂环境中快速识别目标[18]、[19]、[20]。这一启发为COD任务中的多尺度上下文建模提供了方向，特别是在高度复杂的背景下检测目标时。此外，大核卷积网络最初因其捕获更丰富的全局上下文信息的能力而受到关注。然而，随着VGG-Net和ResNet等小核网络的广泛应用，它们的重要性逐渐减弱。最近的研究（如ConvNeXt[21]、[22]和RepLKNet[23]）重新激发了对大核卷积潜力的兴趣，证明了它们在提高下游任务性能方面的显著优势。尽管取得了这些进展，但在COD任务中将大核卷积与多尺度上下文特征学习相结合仍处于早期阶段。

为了解决这一差距，本文提出了MGCF-Net（多级全局上下文融合网络），这是一种结合全局上下文信息和多尺度特征学习的新型伪装物体检测方法。该框架采用改进的Pyramid Vision Transformer（PVTv2）作为骨干网络，并结合了Cross-Scale Self-Attention（CSSA）模块来有效融合不同尺度的特征表示，增强了上下文特征的表达能力。此外，还引入了Multi-Scale Fusion Attention（MFA）模块，该模块利用Guided Alignment Feature Module（GAFM）实现粗略定位并引导跨尺度特征交互，显著提高了多尺度信息融合的效果。此外，基于大核深度卷积的Simulating Human Receptive Field（SHRF）模块被集成到CSSA和GAFM模块中，这不仅增强了模型捕获细粒度特征的能力，还提高了检测精度和鲁棒性。

与一些近期工作的区别（关键点对比）：

•
与FSPNet/ZoomNet相比：这两种方法主要依赖于金字塔或分层逐步融合策略，而MGCF-Net引入了一个显式的引导分支（MFA
$\to$ GAFM），它直接用粗略定位作为条件信号来调节细粒度特征，这与逐步融合（简单的特征叠加或逐步上采样融合）在机制上有所不同。

•

与FEDER相比：FEDER在频域（小波）中进行频率分解和重建，而我们保留了时域卷积设计，并使用大核分支和相邻尺度注意力作为主要手段，方法论路径也有所不同。

主要贡献：

•
受Inception思想和大核趋势的启发，本文设计了一个多分支大核深度模块，通过扩展有效感受野并减少参数和计算成本来改进全局上下文建模和边界识别。
•
与直接拼接/逐层加权不同，CSSA在相邻层配对的基础上进行双向信息交换，这在确保可控计算的前提下显著提高了低级细节与高级语义之间的对齐效果。
•
提出了一种基于粗略定位引导的融合策略：首先，MFA生成粗略定位图，然后GAFM将其映射为条件归一化参数，以实现更准确的边界保持。

章节片段

伪装物体检测

在伪装物体检测（COD）领域，多项研究致力于提高检测性能，特别是解决伪装物体边界模糊的问题。Fan等人提出了SINET模型[8]，这是第一个受动物捕食行为启发的深度学习COD框架。该模型结合了用于粗略定位的搜索模块和用于精细分割的区分模块。

方法

集成网络使用预训练的PVTv2作为骨干网络，从输入图像中提取多尺度特征表示。具体来说，对于给定的输入图像

I \in R^{H W \times 3}

，骨干网络生成一组多尺度特征

f

，其中

i {1, 2, 3, 4

。这些特征逐渐从高分辨率的低级特征过渡到低分辨率的高级特征，分辨率分别为

\frac{H}{2^{i}} \times \frac{W}{2^{i}}

。图2展示了所提出的MGCF-Net的架构

实验

在本节中，本文首先介绍了所提出方法的实现细节，以及基准协议，包括数据集和评估指标。接下来，本文从定性和定量角度将所提出的方法与现有的COD方法进行了比较。最后，通过消融研究验证了所提出方法的关键组件的有效性。

与COD相关的视觉任务

在本节中，本文通过将MGCF-Net应用于多个与COD相关的任务，展示了其出色的泛化能力。这些任务包括息肉分割、COVID-19肺部感染检测和缺陷检测。

结论

本文提出了MGCF-Net，这是一种专注于多尺度上下文感知特征学习的新型伪装物体检测（COD）网络，旨在提高检测性能。为此，本文采用PVTv2作为骨干网络，高效提取多尺度的全局上下文信息。此外，本文设计了SHRF模块，这是一种多分支大核卷积结构，用于增强特征提取能力。在此基础上，本文

CRediT作者贡献声明

Baichuan Shen：撰写——原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据整理、概念化。Yan Dou：撰写——审阅与编辑、资金获取。Yaolei Li：形式分析、撰写——原始草稿。Wenjun Zhang：撰写——审阅与编辑。Xiaoyan Wang：撰写——审阅与编辑。