遥感(RS)语义分割为大规模航空或卫星图像的每个像素分配一个语义标签,使其能够应用于环境监测、城市规划和精准农业等领域[1]、[2]。近年来,深度学习显著推进了RS分割技术[1]、[3]、[4]、[5]、[6]。卷积神经网络(CNN)在计算上高效,但由于局部感受野的限制,在建模长距离依赖性方面存在不足[7]、[8]。视觉Transformer(ViTs)改善了全局建模能力,但通常会受到二次方自注意力复杂性的影响,这在处理高分辨率图像时变得不可行[9]、[10]。同时,像SegFormer、Mask2Former和UNetFormer这样的通用分割架构为密集预测提供了强大的Transformer基线,但它们的性能和内存占用仍可能受到极高分辨率遥感场景和严格边界要求的挑战[4]、[11]、[12]。状态空间模型(SSMs)[13]最近作为自注意力的替代方案出现,具有线性复杂性,适用于长距离依赖性建模。特别是Mamba[14]及其视觉变体(例如ViM[15])已被适配用于密集预测,几个遥感分割网络(例如PanMamba[16]、Rmamba[17]和VM-UNet[18])展示了SSM框架在高分辨率图像中的潜力。除了纯SSM设计外,最近的研究还探索了与扩散引导或鲁棒性模块的结合,例如用于高分辨率RSI分割的DiffMamba[19]、用于多模态遥感中的尺度对齐和上下文融合的SACFNet[20],以及用于抗噪声SAR分割的NRSANet[21]。这些进展促使我们构建了一个高分辨率、高效且鲁棒的U形架构,并改进了跳跃融合机制。
除了分割之外,受Mamba/Transformer启发的设计也应用于遥感SAR/高光谱/多模态图像分类(例如CFAT、DEMUNet、Mamba-DCAU、CADSM和MTMixer),表明高效的长距离建模在各种RS模式中都具有广泛的好处[22]、[23]、[24]、[25]、[26]。在U形网络中,跳跃连接中的特征融合设计对整体性能至关重要——这不仅通过将VMamba集成到编码器-解码器框架中来提高效率和分割精度。传统的跳跃连接只是简单地将低级编码器特征与高级解码器特征连接起来。然而,这种直接的合并策略未能充分利用多级特征之间的互补性,从而限制了模型区分细微低级细节和抽象高级语义的能力。这种粗略的集成往往导致细粒度对象信息的丢失。作为回应,最近的研究越来越重视注意力机制和多尺度特征学习在推进语义分割中的作用。AFF模块[27]和Multiattention Network(MANet)[28]使用多尺度特征融合策略有效解决了这个问题,但在高分辨率RS图像中对小目标的分割效果仍然有限。
由于严重的类内方差(例如,具有不同材料的屋顶)、类间相似性(例如,道路与不透水表面)以及由视角和场景布局引起的强烈尺度变化,高分辨率遥感语义分割仍然具有挑战性。同时,下游映射任务通常需要准确的边界划分,因此仅依赖粗略的基于区域的监督是不够的。传统的带有跳跃连接的编码器-解码器网络通过结合多级语义和空间细节实现了强大的性能[2]、[7]、[29]、[30];然而,它们的局部卷积感受野限制了长距离依赖性的建模。基于Transformer的模型改善了全局上下文推理[31]、[32],但在处理高分辨率输入时可能会遇到二次方复杂性的问题,这成为瓶颈。这促使我们开发出轻量级的全球建模替代方案,能够在保持密集预测准确性的同时实现线性扩展。
与最近的Mamba-U变体(如VM-UNet[18]和CHVM-UNet[33]、H-vmunet[34]相比,我们在模块层面明确分离了互补的全局-局部学习。具体来说,HR-VSS通过增加一个显式的局部多尺度膨胀卷积分支来增强选择性扫描的全局SSM建模,从而恢复可以通过纯顺序扫描平滑的细结构和小对象,而FASF则用频率-结构解耦的融合(基于CARAFE的低频结构重建+基于DCT的高频边界重新校准+门控融合)替换了传统的跳跃连接/注意力。
我们进一步提供了模块级别的对齐和敏感性分析(表3、13和14),以明确哪些设计选择是必不可少的。
在本文中,我们提出了HRVM-UNet,这是一种基于不对称U形编码器-解码器架构的新型图像分割模型,其基础是Vision Mamba。该模型的核心是HR-VSS模块,一个用于多尺度特征提取的高效双路径模块。为了解决传统跳跃连接的局限性,作者提出了一个频率感知的跳跃融合(FASF)模块。通过将SSM的长距离依赖性建模与CNN的局部特征提取能力相结合,HRVM-UNet旨在高效处理高分辨率图像,同时精确保留空间细节和语义信息。我们的关键设计思路是将高分辨率RS分割中的跳跃融合视为一个空间-频率问题:内容自适应上采样主要恢复低频结构一致性,而光谱重加权强调高频边界和纹理线索,轻量级门控机制自适应地平衡了这两种来源。
我们的主要贡献如下:
- •
HR-VSS模块。我们设计了一个双路径模块,它结合了(i)用于长距离依赖性建模的选择性扫描SSM分支和(ii)用于局部相关性增强的多尺度膨胀卷积分支,随后是坐标注意力和残差连接以实现稳定优化。
- •
频率感知的跳跃融合(FASF)。我们提出了一个频率感知的跳跃融合模块,它结合了(i)用于结构一致重建的CARAFE风格内容自适应上采样,(ii)用于频率感知增强的基于DCT的多光谱通道注意力,以及(iii)用于减轻朴素跳跃连接中的语义差距和边界模糊的空间自适应门控融合。我们还提供了实证设计洞察,即在相似的计算成本下,基于DCT的光谱注意力比基于FFT的光谱注意力更有效(表11)。
- •
非对称HRVM-UNet架构。我们构建了一个具有分层多级输出和深度监督的非对称编码器-解码器架构,以平衡高分辨率RS语义分割的准确性和效率。