遥感图像语义分割(RSISS)旨在为卫星或航空图像中的元素分配精确的、像素级别的语义标签[1]。这项基础任务对于包括土地利用管理[2]、城市基础设施监测[3]、环境变化检测[4]和灾害响应[5]在内的广泛应用至关重要。随着深度学习的快速发展,完全监督的方法(如FCN[6]、UNet[7]和基于Transformer的架构[8])显著提高了RSISS的准确性和效率。最近的研究进一步探索了弱监督[9]、领域适应[10]和迁移学习[11],以应对标签数据有限的场景。
然而,尽管取得了这些进展,传统的RSISS方法通常在封闭词汇设置下运行:模型是在一组预定义的语义类别上训练和评估的[12]。这一限制严重限制了它们对新类别或场景的泛化能力,尤其是随着RS应用越来越需要灵活地分割多样且以前未见过的对象,如新的基础设施、新兴的土地覆盖或罕见的自然现象[13]。此外,高分辨率RSI引入了独特的挑战,包括较大的类内变异性、物体的剧烈方向变化和领域特定的纹理[14]。这些特征使RSI与自然图像区分开来,使得传统的分割技术难以直接应用。
开源词汇语义分割(OVSS)最近在计算机视觉[15]、[16]中兴起,旨在通过利用视觉语言模型(VLMs)如CLIP[17]的进步,实现对任意文本定义类别的分割。通过图像-文本表示对齐,OVSS方法可以根据文本提示分割已知和未知的类别。尽管OVSS技术在不需要额外注释的情况下显著扩展了类别覆盖范围,但大多数SOTA模型是在自然图像数据集上开发和训练的,忽略了遥感特有的视觉特征[18]。
将OVSS扩展到RS领域,称为开源词汇遥感图像语义分割(OVRSISS),既至关重要又具有挑战性[19]。直接将预训练在自然图像上的OVSS模型应用于RSI通常会导致性能不佳:分布不匹配(纹理、空间尺度、物体旋转)和对关键RS知识表示不足,阻碍了判别性特征的提取,并限制了复杂RS场景中的类别推理准确性(如图1所示)。尽管最近的一些工作如OVRS[12]和GSNet[20]试图通过架构调整或引入专门的RS编码器来弥合这一差距,但大多数模型尚未完全整合RS先验知识,也没有成功学习到高分辨率RS分割所需的鲁棒旋转/尺度不变特征。
为了系统地应对这些紧迫的挑战,我们提出了ROSS,这是一个强调有效特征融合和针对RS特征进行定制建模的开源词汇语义分割框架(图2展示了ROSS与现有方法之间的区别)。首先,考虑到许多RS场景中明显的旋转多样性(例如,飞机、船只、方向任意的道路),我们的核心架构采用了一个双分支图像编码器(DBIE),其中一个分支利用多方向增强来构建旋转不变的特征表示,显著提高了模型在不同方向下识别物体的能力。另一个分支使用在大规模RSI上预训练的领域适应编码器,注入必要的RS领域特定知识以增强特征抽象和可迁移性。在特征融合过程中,ROSS引入了一个空间-类别双层成本聚合模块,该模块基于空间和类别信息设计,从而全面整合了全局空间上下文和类别区分能力。此外,我们提出了一个RS知识迁移上采样模块,该模块结合了来自视觉语言和RS编码器的中间特征,以实现多尺度特征重建。在四个广泛使用的开源词汇RS数据集上的全面实验表明,ROSS的性能非常出色。总之,本研究的主要贡献如下:
- 1.
我们提出了一个用于RS开源词汇语义分割的新框架ROSS,明确考虑了旋转不变性和领域适应性。
- 2.
我们提出了一个双分支编码器,分别捕获旋转不变特征和RS领域专家知识,并使用空间-类别双层成本聚合模块进行有效特征融合。
- 3.
我们设计了一个新颖的RS知识迁移上采样模块,能够高效重建细粒度分割掩码并整合多源信息。
- 4.
我们的方法在多个标准基准测试中表现优异,验证了其有效性和广泛适用性。