时间中的“皱纹”:多尺度修补与超分辨率技术在高效时间序列预测中的应用

时间:2026年2月17日
来源:Neurocomputing

编辑推荐:

开放词汇语义分割通过文本提示驱动多模态语义对齐实现像素级分类,但视觉退化(如运动模糊、遮挡)导致性能显著下降,且未seen类别的建模存在语义鸿沟。本文提出SPSRL框架,结合空间先验和语义关系学习:VSKF模块通过正交分解分离多模态特征为双视图向量,融合几何先验与视觉特征提升鲁棒性;SRU模块基于最优传输理论更新跨模态语义亲和矩阵,增强未seen类别泛化能力。实验在多个数据集上验证,mIoU提升2.6%-3.0%。

广告
   X   

平明珠|叶金鹏|崔思佳|张健|胡志刚|周迪|徐鹏鹏|田燕
中国长沙中南大学计算机科学与工程学院

摘要

开放词汇语义分割(OVSS)通过文本提示驱动的多模态语义对齐进行像素级分类。然而,当前的方法在遇到严重的视觉退化时难以保持鲁棒性。尽管可以生成深度信息并将其与视觉特征融合,但由于不同模态之间的语义差距,设计出既有效又高效的融合方法非常困难。此外,基础类别训练与开放词汇推理之间的差异使得建模潜在未见类别变得复杂。受正交分解和最优传输理论原理的启发,我们提出了SP-SRL(空间先验与语义关系学习)来同时提高OVSS的效率和鲁棒性。具体来说,视觉-空间知识融合(VSKF)将特定模态的特征分离为双视图向量以捕获独特信息,而语义关系更新(SRU)在高维多模态特征中发现潜在的语义嵌入。在多个基准测试中的实验结果表明,与现有方法相比,我们的方法将平均交并比(mIoU)提高了2.6%–3.0%。项目页面:https://tutuking22.github.io/SPSRL/

引言

开放词汇语义分割(OVSS)使用在推理时提供的开放且任意大的类别集对图像进行像素级标注,即使对象/概念不在其固定的训练标签集中,也是通过将像素/掩码特征与来自视觉语言模型(VLM)(如对比语言-图像预训练(CLIP)[1])的语言嵌入对齐来实现的。这种能力在训练阶段目标类别未知的情景中尤为重要,使其成为自主系统[2]、医学成像[3]、[4]、[5]和环境监测[6]等实际应用中的必备工具。
然而,当面临运动模糊、阴影、遮挡和光照变化等视觉退化时,OVSS方法的性能会显著下降。从根本上说,这些退化使得视觉外观指标变得不可靠。一些专家尝试通过探索在大规模数据中训练的回归器获得的深度信息来克服这一挑战[7]、[8]、[9]。然而,直接将深度数据与视觉特征结合可能会由于不同模态之间的语义差距而影响性能并降低精度。当前的判别方法[10]、[11]、[12]、[13]使用复杂的网络学习视觉特征和深度数据之间的非线性映射,而生成方法[14]在扩散模型中多次重复去噪操作以获得合理的结果。尽管如此,在判别方法和生成方法中都很难平衡效率和效果,如图1所示,高性能通常伴随着高计算复杂性。
此外,基础类别训练与开放词汇推理之间的差异使得建模潜在未见类别变得复杂。如图1所示,未见类别(例如灌木)的性能会下降,这些类别由黑色边界框标出。连续语义分割尝试通过在训练新任务时重放旧类别的样本来解决这个问题[15]、[16]、[17]、[18],在训练过程中引入正则化项以使用知识蒸馏技术保留关于旧类别的知识[19]、[20],或采用自监督学习(如对比学习)来学习更通用和更鲁棒的特征表示,从而减少遗忘[21]、[22]。然而,隐式语义解释的核心过程尚未得到充分研究。
我们的灵感来自于水平和垂直方向是描述空间分布的正交向量,它们可以有效地将2D特征转换为1D向量,以适应轻量级模型。此外,在训练阶段从基础类别到推理阶段的跨模态语义亲和矩阵的更新可以在最优传输(OT)架构中建模,前提是已知基础类别和未见类别的分布。
受此观察的启发,我们提出了空间先验与语义关系学习(SPSRL)来提高OVSS的效率和鲁棒性。所提出方法的有效性和效率在图1中得到了说明。通过转换跨模态生成的空间信息,视觉-空间知识融合(VSKF)将特定模态的特征分离为双视图向量,以在具有挑战性的场景中捕获独特信息,从而提高感知能力。此外,语义关系更新(SRU)在最优传输架构中识别高维多模态特征中的隐藏、未观察到的语义,以增强未见类别的泛化能力。
本文的主要贡献总结如下:
  • SPSRL提出通过使用空间先验和语义关系学习来提高开放词汇语义分割在视觉退化下的效率和鲁棒性。
  • VSKF提出通过探索几何先验和特征交互以低计算复杂度减轻视觉退化的影响。
  • SRU提出在最优传输框架中定位高维多模态特征中的潜在语义标记。
  • 在杭州交通数据集[23]、GM交通数据集[24]和Cityscapes数据集[25]上的实验结果表明,本文提出的方法在各种应用场景中与最先进(SOTA)方法具有竞争力。
    本文的后续部分组织如下。第2节回顾了零样本语义分割的研究。第3节介绍了所提出的方法。第4节展示了实验结果,第5节提供了结论性意见。

    相关工作

    相关工作

    在本节中,我们简要回顾了开放词汇语义分割的文献,描述了每种方法的优点和缺点。

    提出的方法

    在本节中,第3.1节简要回顾了Sinkhorn算法。然后,第3.2节介绍了开放词汇语义分割的总体框架。接下来,第3.3节介绍了所提出的视觉-空间知识融合模块,第3.4节介绍了所提出的语义关系更新模块。我们框架的详细信息也在图2中进行了说明。

    结果

    使用杭州交通数据集、GM交通数据集和Cityscapes数据集,评估并比较了所提出方法的有效性和效率。

    结论

    在这项研究中,我们提出了SPSRL,这是一个针对OVSS的新框架,有效解决了两个关键挑战:在严重视觉退化下的性能下降和潜在未见类别的建模。通过将特定模态的特征分离为正交的双视图向量,VSKF模块有效地将深度信息中的几何先验与视觉特征集成。通过在最优传输框架内重新定义语义亲和计算,SRU

    CRediT作者贡献声明

    平明珠:撰写 – 原稿。叶金鹏:软件实现。崔思佳:软件实现。张健:方法论。胡志刚:概念化。周迪:方法论。徐鹏鹏:撰写 – 审稿与编辑。田燕:撰写 – 审稿与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本工作得到了浙江省自然科学基金(编号LZ24F020001)、桐乡通用人工智能研究所开放基金(编号TAGI2-B-2024-0009)以及先进医疗材料与设备国家重点实验室(编号SQ2022SKL01089-2025-14)的支持。
    平明珠目前在中国中南大学计算机科学与工程学院攻读博士学位。她目前的兴趣是机器学习和计算机视觉。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有