开放词汇语义分割(OVSS)使用在推理时提供的开放且任意大的类别集对图像进行像素级标注,即使对象/概念不在其固定的训练标签集中,也是通过将像素/掩码特征与来自视觉语言模型(VLM)(如对比语言-图像预训练(CLIP)[1])的语言嵌入对齐来实现的。这种能力在训练阶段目标类别未知的情景中尤为重要,使其成为自主系统[2]、医学成像[3]、[4]、[5]和环境监测[6]等实际应用中的必备工具。
然而,当面临运动模糊、阴影、遮挡和光照变化等视觉退化时,OVSS方法的性能会显著下降。从根本上说,这些退化使得视觉外观指标变得不可靠。一些专家尝试通过探索在大规模数据中训练的回归器获得的深度信息来克服这一挑战[7]、[8]、[9]。然而,直接将深度数据与视觉特征结合可能会由于不同模态之间的语义差距而影响性能并降低精度。当前的判别方法[10]、[11]、[12]、[13]使用复杂的网络学习视觉特征和深度数据之间的非线性映射,而生成方法[14]在扩散模型中多次重复去噪操作以获得合理的结果。尽管如此,在判别方法和生成方法中都很难平衡效率和效果,如图1所示,高性能通常伴随着高计算复杂性。
此外,基础类别训练与开放词汇推理之间的差异使得建模潜在未见类别变得复杂。如图1所示,未见类别(例如灌木)的性能会下降,这些类别由黑色边界框标出。连续语义分割尝试通过在训练新任务时重放旧类别的样本来解决这个问题[15]、[16]、[17]、[18],在训练过程中引入正则化项以使用知识蒸馏技术保留关于旧类别的知识[19]、[20],或采用自监督学习(如对比学习)来学习更通用和更鲁棒的特征表示,从而减少遗忘[21]、[22]。然而,隐式语义解释的核心过程尚未得到充分研究。
我们的灵感来自于水平和垂直方向是描述空间分布的正交向量,它们可以有效地将2D特征转换为1D向量,以适应轻量级模型。此外,在训练阶段从基础类别到推理阶段的跨模态语义亲和矩阵的更新可以在最优传输(OT)架构中建模,前提是已知基础类别和未见类别的分布。
受此观察的启发,我们提出了空间先验与语义关系学习(SPSRL)来提高OVSS的效率和鲁棒性。所提出方法的有效性和效率在图1中得到了说明。通过转换跨模态生成的空间信息,视觉-空间知识融合(VSKF)将特定模态的特征分离为双视图向量,以在具有挑战性的场景中捕获独特信息,从而提高感知能力。此外,语义关系更新(SRU)在最优传输架构中识别高维多模态特征中的隐藏、未观察到的语义,以增强未见类别的泛化能力。
本文的主要贡献总结如下:
•SPSRL提出通过使用空间先验和语义关系学习来提高开放词汇语义分割在视觉退化下的效率和鲁棒性。
•VSKF提出通过探索几何先验和特征交互以低计算复杂度减轻视觉退化的影响。
•SRU提出在最优传输框架中定位高维多模态特征中的潜在语义标记。
在杭州交通数据集[23]、GM交通数据集[24]和Cityscapes数据集[25]上的实验结果表明,本文提出的方法在各种应用场景中与最先进(SOTA)方法具有竞争力。
本文的后续部分组织如下。第2节回顾了零样本语义分割的研究。第3节介绍了所提出的方法。第4节展示了实验结果,第5节提供了结论性意见。