面向遥感图像的开源词汇语义分割研究

生物通首页 > 今日动态 > 正文

面向遥感图像的开源词汇语义分割研究

时间：2026年1月25日

来源：Pattern Recognition

编辑推荐：

开放词汇遥感图像语义分割框架ROSS通过双分支编码器融合旋转不变特征与领域知识，结合空间-类别双级代价聚合模块和知识迁移上采样模块，有效提升复杂场景下的分割精度，实验表明其性能优于现有SOTA模型。

作者：张达 | 曾明敏 | 李学龙

西北工业大学人工智能、光学与电子学院（iOPEN），中国西安

摘要

针对遥感图像（RSI）的开源词汇语义分割（OVSS）旨在实现对RSI中指定的任意语义类别的精确分割。然而，现有的主流OVSS模型大多是在自然图像上训练的，难以处理RSI的旋转多样性和独特特征，导致特征表示和类别区分能力不足。为了解决这一挑战，我们提出了ROSS，这是一个结合了有效特征融合和专门针对RSI特征建模的开源词汇语义分割框架。具体来说，ROSS采用了一个双分支图像编码器（DBIE）：一个分支利用多方向增强来提高旋转不变特征的表示能力，另一个分支则通过在大规模RSI数据上预训练的编码器来融入遥感（RS）特有的知识。在特征融合过程中，ROSS从两个分支生成成本图，并设计了一个基于空间和类别信息的空间-类别双层成本聚合（SDCA）模块，从而全面整合了全局空间上下文和类别区分能力。最后，我们引入了一个RS知识迁移上采样模块，该模块能够高效融合和重建多尺度特征，以实现高分辨率和细粒度的分割。在四个开源词汇RS数据集上的实验表明，ROSS的性能始终优于当前的最先进（SOTA）模型。这种在不同训练和评估配置下的稳健性能验证了其有效性和广泛适用性。

引言

遥感图像语义分割（RSISS）旨在为卫星或航空图像中的元素分配精确的、像素级别的语义标签[1]。这项基础任务对于包括土地利用管理[2]、城市基础设施监测[3]、环境变化检测[4]和灾害响应[5]在内的广泛应用至关重要。随着深度学习的快速发展，完全监督的方法（如FCN[6]、UNet[7]和基于Transformer的架构[8]）显著提高了RSISS的准确性和效率。最近的研究进一步探索了弱监督[9]、领域适应[10]和迁移学习[11]，以应对标签数据有限的场景。

然而，尽管取得了这些进展，传统的RSISS方法通常在封闭词汇设置下运行：模型是在一组预定义的语义类别上训练和评估的[12]。这一限制严重限制了它们对新类别或场景的泛化能力，尤其是随着RS应用越来越需要灵活地分割多样且以前未见过的对象，如新的基础设施、新兴的土地覆盖或罕见的自然现象[13]。此外，高分辨率RSI引入了独特的挑战，包括较大的类内变异性、物体的剧烈方向变化和领域特定的纹理[14]。这些特征使RSI与自然图像区分开来，使得传统的分割技术难以直接应用。

开源词汇语义分割（OVSS）最近在计算机视觉[15]、[16]中兴起，旨在通过利用视觉语言模型（VLMs）如CLIP[17]的进步，实现对任意文本定义类别的分割。通过图像-文本表示对齐，OVSS方法可以根据文本提示分割已知和未知的类别。尽管OVSS技术在不需要额外注释的情况下显著扩展了类别覆盖范围，但大多数SOTA模型是在自然图像数据集上开发和训练的，忽略了遥感特有的视觉特征[18]。

将OVSS扩展到RS领域，称为开源词汇遥感图像语义分割（OVRSISS），既至关重要又具有挑战性[19]。直接将预训练在自然图像上的OVSS模型应用于RSI通常会导致性能不佳：分布不匹配（纹理、空间尺度、物体旋转）和对关键RS知识表示不足，阻碍了判别性特征的提取，并限制了复杂RS场景中的类别推理准确性（如图1所示）。尽管最近的一些工作如OVRS[12]和GSNet[20]试图通过架构调整或引入专门的RS编码器来弥合这一差距，但大多数模型尚未完全整合RS先验知识，也没有成功学习到高分辨率RS分割所需的鲁棒旋转/尺度不变特征。

为了系统地应对这些紧迫的挑战，我们提出了ROSS，这是一个强调有效特征融合和针对RS特征进行定制建模的开源词汇语义分割框架（图2展示了ROSS与现有方法之间的区别）。首先，考虑到许多RS场景中明显的旋转多样性（例如，飞机、船只、方向任意的道路），我们的核心架构采用了一个双分支图像编码器（DBIE），其中一个分支利用多方向增强来构建旋转不变的特征表示，显著提高了模型在不同方向下识别物体的能力。另一个分支使用在大规模RSI上预训练的领域适应编码器，注入必要的RS领域特定知识以增强特征抽象和可迁移性。在特征融合过程中，ROSS引入了一个空间-类别双层成本聚合模块，该模块基于空间和类别信息设计，从而全面整合了全局空间上下文和类别区分能力。此外，我们提出了一个RS知识迁移上采样模块，该模块结合了来自视觉语言和RS编码器的中间特征，以实现多尺度特征重建。在四个广泛使用的开源词汇RS数据集上的全面实验表明，ROSS的性能非常出色。总之，本研究的主要贡献如下：

1.
我们提出了一个用于RS开源词汇语义分割的新框架ROSS，明确考虑了旋转不变性和领域适应性。
2.
我们提出了一个双分支编码器，分别捕获旋转不变特征和RS领域专家知识，并使用空间-类别双层成本聚合模块进行有效特征融合。
3.
我们设计了一个新颖的RS知识迁移上采样模块，能够高效重建细粒度分割掩码并整合多源信息。
4.
我们的方法在多个标准基准测试中表现优异，验证了其有效性和广泛适用性。

为了清晰阐述我们的研究工作，本文第2节回顾了该领域的先前研究和现有文献。在此基础上，第3节重点介绍了我们开发的ROSS方法及其基本原理。为了验证该方法的有效性，第4节设计了一系列实验，并对结果进行了深入分析和讨论。最后，第5节总结了本文的主要发现和贡献，并提出了未来的研究方向。

章节片段

遥感图像语义分割

RSISS旨在为RSI中的每个像素分配一个精确的类别标签，是土地利用规划、城市监测和灾害响应等众多应用的关键技术[22]。深度学习的快速发展极大地推动了这一领域的发展。完全监督的方法，如FCN[6]、UNet[7]及其变体[23]和视觉Transformer[24]，在主要基准数据集上取得了显著的性能。

方法论

为了有效应对RSI中OVSS的独特挑战，特别是物体的旋转多样性和复杂场景特征，我们提出了一个名为ROSS的新框架。ROSS的核心思想有三个方面：首先，通过双分支编码器架构，协同利用通用VLM的泛化能力和RS领域特定模型的专门知识；其次，构建针对方向变化的鲁棒特征表示

实验

为了全面评估我们提出的ROSS框架的有效性，我们设计了一系列详细的实验。本节首先介绍了用于实验的基准数据集和评估指标，然后详细阐述了我们模型的具体实现细节。随后，我们对ROSS和当前SOTA方法进行了定性和定量性能比较。最后，通过一系列消融研究，我们深入

结论

在这项工作中，我们提出了ROSS，一个用于开源词汇遥感图像分割（OVRSISS）的新框架，旨在解决旋转多样性和领域特定知识差距的关键挑战。ROSS采用双分支图像编码器（DBIE）协同融合旋转不变特征和领域专业知识，使用空间-类别双层成本聚合（SDCA）模块进行精细的特征整合，以及知识迁移上采样器进行详细的掩码重建