SCL-SOD：一种用于显著对象检测的混合式自监督对比学习框架

生物通首页 > 今日动态 > 正文

SCL-SOD：一种用于显著对象检测的混合式自监督对比学习框架

时间：2026年1月31日

来源：Neurocomputing

编辑推荐：

针对复杂背景下的显著物体检测难题，提出SCL-SOD模型，通过图像级和像素级自监督对比学习增强特征区分能力，结合多尺度一致性约束优化解码器，有效抑制背景干扰并提升预测一致性，在六个基准数据集上超越11种SOTA方法。

吴正达|王金宝|崔英春|朱静华

黑龙江大学计算机与大数据学院，哈尔滨，150000，中国

摘要

显著对象检测（SOD）旨在识别图像中最具视觉辨识度的对象，在对象检测、图像分类和图像合成等领域有广泛的应用。大多数现有的SOD方法采用基于监督学习的框架，这些框架严重依赖标记图像作为监督信号。然而，在伪装对象和背景高度相似的复杂场景中，这些方法的性能往往不佳，主要原因有两个：（1）标签提供的监督信息不足，无法捕捉到完整的显著区域；（2）任务驱动的监督学习过于关注目标对象，而忽略了上下文感知场，导致误报率升高。为了解决这些问题，我们提出了一种新的混合模型SCL-SOD，它在编码器-解码器架构中结合了自监督对比学习与监督学习，并采用了T2T-ViT主干网络。具体来说，我们的模型包含两个关键组件：图像级对比学习编码器（ICLE），通过学习不同增强视图下的不变表示来提高全局特征的区分能力；像素级对比学习解码器（PCLD），通过在像素层面强制特征一致性来提高局部预测的准确性。最终的优化结合了加权监督检测损失和自监督对比损失。在六个标准RGB基准数据集上进行的广泛实验表明，我们提出的SCL-SOD模型在背景复杂的挑战性场景中的表现优于11种最先进的SOD方法。

引言

显著对象检测（SOD）旨在识别RGB图像中的引人注目的对象。由于SOD在计算机视觉中的广泛应用，它在图像裁剪、视觉跟踪和场景理解等众多下游任务中也发挥着关键作用。基于卷积神经网络（CNN）的编码器-解码器架构通过利用从局部特征提取的多层次特征，展现了高质量的特征重建能力。最近的基于Transformer的SOD方法[1]、[2]采用了类似于CNN的层次结构，并直接进行多层次特征聚合。

现有方法在准确定位显著对象方面取得了有希望的结果。然而，检测性能在很大程度上依赖于带有标签数据的监督训练。这些标签提供的监督信号往往不足以引导模型在复杂场景（例如，对象与背景相似的低对比度图像）中准确检测整个对象，从而导致检测能力减弱。此外，由于监督学习本质上是任务驱动的，模型可能会过度关注目标对象而忽略周围的感知场，从而增加误报率。一些研究证实，背景区分能力对监督SOD方法的准确性有很大影响[3]。在自然图像中，显著对象与背景之间的高相似性包括颜色、结构、纹理和语义方面。因此，准确区分显著对象与相似背景对于提升SOD性能至关重要。

为了研究这种注意力差异，我们进行了一项初步实验，分析了不同学习方法生成的热图和显著图。热图中的颜色越亮，表示模型给予的关注度越高。在图1(a)中，三幅图像的背景复杂性从上到下逐渐增加。红色边界框区域与背景有显著的相似性。图1(c)显示了由监督学习生成的特征热图，它对背景的关注较少。在红色框区域，由于显著对象和背景难以区分，导致显著图中的预测出现误报或漏报（如图1(d)所示）。相反，在图1(e)中由自监督学习生成的热图中，我们观察到更多的关注集中在潜在的显著区域，包括背景。图1(f)中的显著图与真实情况一致。此外，从图1(g)中的热图和图1(h)中的PoolNet[4]（一种监督模型）生成的显著图可以看出，尽管PoolNet的热图与自监督学习模型相似，但其显著性结果较差。

从上述初步实验的分析中，我们发现背景特征对于SOD任务来说是不可或缺的，因为它们包含丰富的信息，这一点也得到了先前研究的强调[5]、[6]。一些监督方法将背景知识与前景知识结合起来，但仍面临背景抑制不完整和前景区域缺失等挑战。因此，我们认为开发一个利用背景信息来帮助识别最初被忽略的显著区域的自监督学习辅助模型是合理的。

在这项工作中，我们介绍了SCL-SOD，这是一种在标准编码器-解码器架构中集成自监督对比学习的新颖显著对象检测模型。自监督学习（SSL）通过利用固有的数据结构来减轻注释偏差并提高特征区分能力，从而改善了显著特征的学习。我们提出的方法超越了传统的对比学习应用。相反，我们设计了一个双层次的、特定于任务的对比学习框架，明确解决了SOD中的两个基本挑战：在复杂背景下的特征区分性学习和多尺度解码中的预测一致性。SCL-SOD将图像级对比学习（ICLE）整合到T2T-ViT主干网络[7]中，通过自监督学习增强了编码器表示丰富背景信息的能力。我们没有使用通用的图像级对比学习（例如实例区分），而是专门构建了正负对，以将显著的前景模式与背景干扰区分开来。在训练过程中，我们使用真实掩码生成增强视图，保留显著区域的同时破坏背景上下文。这迫使编码器学习对背景杂乱不敏感但对显著对象特征高度敏感的表示，直接解决了SOD的一个关键难题。为了增强解码器的效果，我们还引入了像素级对比学习（PCLD）模块。这是一种针对密集预测任务（如SOD）设计的新型解码机制，具有多尺度一致性保证。我们不是简单地在最终特征上应用像素级对比学习，而是将多个解码层（从粗到细）中的相应像素表示明确对齐为正对，同时将同一尺度内不同语义区域（前景与背景）的像素作为负对分开。这种新颖的设计确保了显著性预测在几何和语义上的跨尺度一致性，显著细化了对象边界并抑制了内部空洞——这是复杂场景中的常见问题。我们将标准的监督显著损失与我们的新型双层次对比损失结合在一起，采用协同优化策略。对比损失作为正则化器，引导网络学习更可分离的特征分布，从而使监督学习更加高效和稳健。在六个RGB基准数据集上的广泛实验表明，我们的框架在区分显著对象及其相似背景方面表现出色。我们的方法在六个评估指标上的检测质量优于其他最先进的方法。

我们的贡献可能包括：

•

我们为SOD提出的双层次（图像级和像素级）对比学习框架的独特任务特定化设计。

•

用于在复杂背景中提取稳健显著线索的图像级对比学习编码器（ICLE）的设计。

•

用于强制多尺度预测一致性和细化细节的像素级对比学习解码器（PCLD）的设计。

•

将这些新颖的对比目标与监督显著损失协同结合的综合学习策略。

本文的其余部分组织结构如下：第2节简要回顾了本文的相关工作。第3节介绍了SCL-SOD的框架及其各个组件的详细信息。第4节报告了实验结果，证明了SCL-SOD的有效性。最后，第5节给出了结论和未来的工作方向。

章节片段

基于深度学习的显著对象检测

近年来，随着深度学习技术的快速发展[8]、[9]，SOD模型的性能显著提升。显著对象检测的演变从传统方法发展到基于深度学习的方法。SOD模型将视觉注意力引导到复杂场景中的突出区域，从而在具有挑战性的条件下实现稳健的感知[10]。Wang等人[11]提出了注意力显著网络（ASNet），该网络使用从

方法

在本节中，我们首先介绍了如图2所示的SCL-SOD模型。SCL-SOD是一个编码器-解码器架构，包括具有图像级对比学习（ICLE）的编码器、具有像素级对比学习（PCLD）的解码器以及一个Transformer转换器。然后我们在以下各节中详细阐述每个组件的内容。

数据集和评估指标

数据集：我们在六个广泛使用的基准数据集上评估我们的模型，包括ECSSD [39]（1000张图像）数据集、DUTS [40]（10553张训练图像和5019张测试图像）、HKU-IS [41]（4447张图像）、DUTS-O [42]（5168张图像）、SOD [43]（300张图像）、PASCAL-S [42]（850张图像）。

评估指标：我们使用四个指标来比较SOD模型的性能：平均绝对误差（M）用于像素级误差评估，最大增强对齐度量[44]（

）用于误差校正，结构