显著对象检测(SOD)旨在识别RGB图像中的引人注目的对象。由于SOD在计算机视觉中的广泛应用,它在图像裁剪、视觉跟踪和场景理解等众多下游任务中也发挥着关键作用。基于卷积神经网络(CNN)的编码器-解码器架构通过利用从局部特征提取的多层次特征,展现了高质量的特征重建能力。最近的基于Transformer的SOD方法[1]、[2]采用了类似于CNN的层次结构,并直接进行多层次特征聚合。
现有方法在准确定位显著对象方面取得了有希望的结果。然而,检测性能在很大程度上依赖于带有标签数据的监督训练。这些标签提供的监督信号往往不足以引导模型在复杂场景(例如,对象与背景相似的低对比度图像)中准确检测整个对象,从而导致检测能力减弱。此外,由于监督学习本质上是任务驱动的,模型可能会过度关注目标对象而忽略周围的感知场,从而增加误报率。一些研究证实,背景区分能力对监督SOD方法的准确性有很大影响[3]。在自然图像中,显著对象与背景之间的高相似性包括颜色、结构、纹理和语义方面。因此,准确区分显著对象与相似背景对于提升SOD性能至关重要。
为了研究这种注意力差异,我们进行了一项初步实验,分析了不同学习方法生成的热图和显著图。热图中的颜色越亮,表示模型给予的关注度越高。在图1(a)中,三幅图像的背景复杂性从上到下逐渐增加。红色边界框区域与背景有显著的相似性。图1(c)显示了由监督学习生成的特征热图,它对背景的关注较少。在红色框区域,由于显著对象和背景难以区分,导致显著图中的预测出现误报或漏报(如图1(d)所示)。相反,在图1(e)中由自监督学习生成的热图中,我们观察到更多的关注集中在潜在的显著区域,包括背景。图1(f)中的显著图与真实情况一致。此外,从图1(g)中的热图和图1(h)中的PoolNet[4](一种监督模型)生成的显著图可以看出,尽管PoolNet的热图与自监督学习模型相似,但其显著性结果较差。
从上述初步实验的分析中,我们发现背景特征对于SOD任务来说是不可或缺的,因为它们包含丰富的信息,这一点也得到了先前研究的强调[5]、[6]。一些监督方法将背景知识与前景知识结合起来,但仍面临背景抑制不完整和前景区域缺失等挑战。因此,我们认为开发一个利用背景信息来帮助识别最初被忽略的显著区域的自监督学习辅助模型是合理的。
在这项工作中,我们介绍了SCL-SOD,这是一种在标准编码器-解码器架构中集成自监督对比学习的新颖显著对象检测模型。自监督学习(SSL)通过利用固有的数据结构来减轻注释偏差并提高特征区分能力,从而改善了显著特征的学习。我们提出的方法超越了传统的对比学习应用。相反,我们设计了一个双层次的、特定于任务的对比学习框架,明确解决了SOD中的两个基本挑战:在复杂背景下的特征区分性学习和多尺度解码中的预测一致性。SCL-SOD将图像级对比学习(ICLE)整合到T2T-ViT主干网络[7]中,通过自监督学习增强了编码器表示丰富背景信息的能力。我们没有使用通用的图像级对比学习(例如实例区分),而是专门构建了正负对,以将显著的前景模式与背景干扰区分开来。在训练过程中,我们使用真实掩码生成增强视图,保留显著区域的同时破坏背景上下文。这迫使编码器学习对背景杂乱不敏感但对显著对象特征高度敏感的表示,直接解决了SOD的一个关键难题。为了增强解码器的效果,我们还引入了像素级对比学习(PCLD)模块。这是一种针对密集预测任务(如SOD)设计的新型解码机制,具有多尺度一致性保证。我们不是简单地在最终特征上应用像素级对比学习,而是将多个解码层(从粗到细)中的相应像素表示明确对齐为正对,同时将同一尺度内不同语义区域(前景与背景)的像素作为负对分开。这种新颖的设计确保了显著性预测在几何和语义上的跨尺度一致性,显著细化了对象边界并抑制了内部空洞——这是复杂场景中的常见问题。我们将标准的监督显著损失与我们的新型双层次对比损失结合在一起,采用协同优化策略。对比损失作为正则化器,引导网络学习更可分离的特征分布,从而使监督学习更加高效和稳健。在六个RGB基准数据集上的广泛实验表明,我们的框架在区分显著对象及其相似背景方面表现出色。我们的方法在六个评估指标上的检测质量优于其他最先进的方法。
我们的贡献可能包括:
•我们为SOD提出的双层次(图像级和像素级)对比学习框架的独特任务特定化设计。
•用于在复杂背景中提取稳健显著线索的图像级对比学习编码器(ICLE)的设计。
•用于强制多尺度预测一致性和细化细节的像素级对比学习解码器(PCLD)的设计。
•将这些新颖的对比目标与监督显著损失协同结合的综合学习策略。