伪装物体检测(COD)是计算机视觉领域中的一个关键任务,旨在准确识别无缝融入复杂环境中的物体。在自然界中,许多生物(如变色龙和毛毛虫)利用颜色、纹理和环境融合等伪装策略来逃避捕食者。这一自然现象激发了研究人员开发相应的计算模型,从而在医学图像分割[1]、[2]、[3]、物种保护[4]和工业缺陷检测[5]等领域得到了广泛应用。这些应用不仅突显了对COD技术日益增长的需求,也强调了其在应对复杂检测挑战中的重要性。
尽管近年来COD技术取得了显著进展,但如图1所示,许多挑战依然存在。早期方法主要依赖于手工制作的特征[6]、[7],这些方法难以处理伪装物体形状的复杂性,导致检测性能有限。随着深度学习的出现和大规模COD数据集(如COD10K[8])的引入,基于深度学习的COD方法变得更为突出。这些方法利用神经网络自动提取多样化特征,在伪装物体检测[9]、[10]、[11]、[12]、[13]方面取得了显著改进。然而,由于伪装目标与背景之间的对比度低、目标形状的多样性以及遮挡现象,当前技术在高精度检测方面仍面临某些挑战。
在物体检测和分割任务中,多尺度上下文信息被广泛认为是提高检测精度的关键因素。这在处理小物体检测[14]、模糊外观物体[15]和复杂遮挡环境[16]等挑战时尤为重要。然而,在伪装物体检测(COD)中,由于伪装物体与其背景之间的对比度低、物体边缘形状的多样性以及复杂场景中的遮挡现象,模型面临更大的挑战。伪装物体与其背景之间的高度相似性使得检测任务尤为困难。传统方法依赖手工制作的特征来提取物体信息,在面对复杂物体形状时往往表现不佳。尽管深度学习的发展使得现有方法能够自动从数据中提取多样化特征,但在小物体检测和复杂背景下的性能仍不尽如人意。具体来说,在小物体检测中,现有技术难以有效捕获多尺度细节特征,导致边缘模糊、形状不清晰和识别精度降低[17]。在复杂遮挡场景中,模型对物体与背景之间全局上下文关系的建模能力较弱,限制了伪装物体的准确定位和检测。此外,由于物体边缘与背景区域之间的相似性,现有方法难以区分伪装物体与背景,进一步限制了检测精度。因此,现有方法在COD任务的高精度检测方面仍面临重大挑战。尽管深度学习方法在自动特征提取方面取得了突破,但在复杂场景中有效整合多尺度上下文信息并提高适应性和鲁棒性仍然是伪装物体检测中的紧迫挑战。
最近在物体检测方面的研究表明,模拟人类视觉系统的策略可以显著提高检测性能。例如,人类视觉机制中粗糙定位和精细聚焦策略的结合允许在复杂环境中快速识别目标[18]、[19]、[20]。这一启发为COD任务中的多尺度上下文建模提供了方向,特别是在高度复杂的背景下检测目标时。此外,大核卷积网络最初因其捕获更丰富的全局上下文信息的能力而受到关注。然而,随着VGG-Net和ResNet等小核网络的广泛应用,它们的重要性逐渐减弱。最近的研究(如ConvNeXt[21]、[22]和RepLKNet[23])重新激发了对大核卷积潜力的兴趣,证明了它们在提高下游任务性能方面的显著优势。尽管取得了这些进展,但在COD任务中将大核卷积与多尺度上下文特征学习相结合仍处于早期阶段。
为了解决这一差距,本文提出了MGCF-Net(多级全局上下文融合网络),这是一种结合全局上下文信息和多尺度特征学习的新型伪装物体检测方法。该框架采用改进的Pyramid Vision Transformer(PVTv2)作为骨干网络,并结合了Cross-Scale Self-Attention(CSSA)模块来有效融合不同尺度的特征表示,增强了上下文特征的表达能力。此外,还引入了Multi-Scale Fusion Attention(MFA)模块,该模块利用Guided Alignment Feature Module(GAFM)实现粗略定位并引导跨尺度特征交互,显著提高了多尺度信息融合的效果。此外,基于大核深度卷积的Simulating Human Receptive Field(SHRF)模块被集成到CSSA和GAFM模块中,这不仅增强了模型捕获细粒度特征的能力,还提高了检测精度和鲁棒性。
与一些近期工作的区别(关键点对比):
- •
与FSPNet/ZoomNet相比:这两种方法主要依赖于金字塔或分层逐步融合策略,而MGCF-Net引入了一个显式的引导分支(MFA
GAFM),它直接用粗略定位作为条件信号来调节细粒度特征,这与逐步融合(简单的特征叠加或逐步上采样融合)在机制上有所不同。
•与FEDER相比:FEDER在频域(小波)中进行频率分解和重建,而我们保留了时域卷积设计,并使用大核分支和相邻尺度注意力作为主要手段,方法论路径也有所不同。