语义分割(Huang, Wang, Huang, Huang, Wei, Liu, 2019; Lin, Milan, Shen, Reid, 2017; Long, Shelhamer, Darrell, 2015)是计算机视觉中的一个基本任务。深度学习的进步推动了分割模型的显著进展,最先进的方法在完全标注的基准数据集上表现出卓越的性能。然而,这些模型的实际应用由于依赖于大量的标注数据而受到很大限制。少样本语义分割(FSS)(Shaban, Bansal, Liu, Essa, & Boots, 2017)作为少样本学习(Vinyals et al., 2016)范式的扩展,通过利用有限的标注样本来解决这些挑战,使模型能够对新颖类别进行分割。
为了解决少样本语义分割中的类内多样性和类间相似性问题,现有方法主要沿着两个方法路径发展:基于原型的表示学习和特征匹配范式。基于原型的方法(Lang, Cheng, Tu, Li, Han, 2023; Liu, Zhang, Lin, Liu, 2020; Liu, Liu, Cao, Yao, Han, Shao, 2022; Peng, Tian, Wu, Wang, Liu, Su, Jia, 2023)通常通过支持特征聚合来派生特定类别的表示,然后通过原型引导的相似性度量来指导查询图像的分割。基于特征匹配的方法(Chen, Dong, Lu, Yu, Han, 2024a; Chen, Gao, Lu, Xue, Wang, Liao, 2022b; Min, Kang, Cho, 2021; Shen, Kuang, Wang, Wang, Feng, Zhang, 2024)优先优化支持特征和查询特征之间的交互。尽管这两种范式都取得了显著进展,但它们在复杂场景中的鲁棒性仍然受到基本编码器有限表示能力的限制,特别是在处理细粒度结构或在数据极度稀缺的情况下处理遮挡对象时。
最近,提出了一些基于CLIP的FSS方法,旨在利用CLIP丰富的视觉-语言知识来提高少样本分割性能。这些方法主要遵循三种研究策略:(1)通过基于CLIP的视觉-文本对齐生成特定类别的先验或原型(Wang, Zhang, Pang, Chen, & Liu, 2024);(2)优化跨模态特征交互以将语义线索从文本传递到视觉(Wang et al., 2023a);(3)引入无需训练或弱监督的范式,利用CLIP的零样本能力来减少对标注的依赖(Chen, Meng, Zhang, Qiu, Li, Wu, Xu, 2024b; Jeong, Zou, Kim, Zhang, Ravichandran, Dabeer, 2023)。虽然这些方法有效地利用了CLIP的语义知识来增强原型区分能力,但它们仍然忽略了两个重要方面。首先,CLIP并不生成严格定位的对象响应。由于CLIP视觉编码器是在图像级别优化的,并以图像-文本对比为目标,因此它倾向于捕捉整体场景语义而不是精确的像素级掩码。结果,它往往会同时激活目标对象及其频繁共现的背景,因此前景和背景区域可能会显示出相似的激活模式,从而为查询分割提供误导性的指导。其次,大多数方法依赖于静态文本提示,这些提示无法适应特定于图像的上下文,限制了它们提供准确跨模态指导的能力。如图1(a)所示,当我们可视化基于CLIP的目标类别响应时,不仅前景对象,而且与背景相关联的区域也会被强烈激活。在这种情况下,每个补丁令牌在经过多层自注意力处理后,不仅编码了其自身的局部外观,还编码了来自整个图像的全局上下文信息,因此与目标类别在语义或上下文上相关的背景补丁可能会显示出与真实前景补丁相似的响应。而且图像中显示的类别特征是具体且生动的,固定的文本提示对于图像匹配来说是不准确的。如图1(b)所示,普遍采用的固定文本提示(例如,{class}的照片)未能充分利用CLIP固有的语义约束特征学习能力,特别是错过了通过多样化文本嵌入进行精确分类属性编码的机会。因此,为了解决CLIP视觉特征中前景和背景区域的相似响应以及文本指导的静态性质,我们的研究旨在构建一个统一的框架,以增强前景-背景区分能力,并使文本指导适应输入图像。
基于这一动机,我们提出了一个新颖的框架——CLIP驱动的特征消歧和跨模态协同网络(FDCMNet),该框架强调了提高前景-背景区分能力和提供图像自适应跨模态语义指导的双重目标。首先,如图1(a)所示,虽然CLIP的图像编码器提供了有价值的语义先验,但其直接应用需要明确的前景-背景分离,以便从噪声表示中分离出区分性特征。其次,有效的文本指导需要将特定于图像的内容与文本嵌入进行上下文感知的融合,而不是使用静态模板提示,如图1(b)所示。我们的方法引入了两个创新模块来解决前景-背景的模糊性并增强语义-文本对齐。我们提出了对比特征解耦(CFD)模块,该模块通过构建前景和背景原型并在查询特征上对比它们的相似性图来减轻前景-背景混淆并抑制语义相关背景区域中的虚假响应。它通过减法计算查询特征与前景-背景原型之间的像素级相似性差异,有效抑制了不相关区域,同时增强了目标特定的响应。而上下文感知的跨模态融合模块(CACM)通过门控跨注意力机制动态地将图像内容与文本嵌入相结合,实现了精确的跨模态对齐。这项工作的主要贡献总结如下:
- 我们提出了一种新颖的少样本语义分割方法,该方法有效地利用了CLIP的多模态语义先验,利用预训练的视觉-语言对齐来弥合低数据场景中稀疏标注和丰富上下文理解之间的差距。
- 我们设计了CFD模块,通过明确对比来自CLIP的前景和背景原型来消除模糊区域。
- 我们提出了CACM模块,通过门控机制和跨注意力层次化地对齐视觉和文本特征,确保精确的语义指导。
- 广泛的实验表明,我们的方法在PASCAL-5i和COCO-20i数据集上取得了最先进的性能。