FS-SegDiff:基于扩散模型的少样本语义分割新框架——解决类内变异与注意力泄漏问题

时间:2026年1月20日
来源:IEEE Access

编辑推荐:

本文针对少样本语义分割(FSS)中因类内外观变异和扩散模型尺度敏感性导致的特征匹配困难,以及推理阶段对未见类别出现的注意力泄漏问题,提出了一种名为FS-SegDiff的新型扩散基FSS框架。该研究创新性地引入了双向特征融合(BDFF)模块与查询引导键适应(QKA)机制、多尺度特征匹配(MSFM)策略以及支持键放大因子(SKAF),在COCO-20i、LVIS-92i和FSS-1000数据集上实现了最先进的(SOTA)分割性能,即使训练周期大幅减少也表现出色,为快速适应新类别的分割任务提供了有效解决方案。

广告
   X   

在计算机视觉领域,语义分割是一项基础而关键的任务,旨在为图像中的每个像素分配类别标签。尽管基于深度学习的方法在此任务上取得了显著进展,但它们通常依赖于大规模高质量标注数据。当需要分割训练数据中未出现过的新类别物体时,重新收集和标注数据成本高昂,限制了模型的可扩展性和对新类别的适应能力。
少样本语义分割(Few-shot Semantic Segmentation, FSS)应运而生,它致力于仅用少量标注样本(支持集)来指导模型分割查询图像中同一类别的物体。与传统方法不同,FSS无需对每个查询图像进行用户引导标注,能同时识别未见类别并完成分割,因此受到广泛关注。大多数FSS方法利用在分类任务上预训练的模型(如VGG-16、ResNet、Swin-B)作为特征提取器,其性能很大程度上依赖于这些提取器所得特征的质量。
近年来,扩散模型在图像生成领域展现出强大能力,其丰富的特征表示潜力也被探索用于语义分割。DiffewS率先提出了基于扩散模型的FSS框架,将FSS任务重新定义为查询掩码生成任务。然而,直接将为图像生成而设计的扩散模型用于FSS面临独特挑战:生成模型为了保留纹理、颜色等细节,其特征对尺度变化敏感,导致同一类别的物体可能因大小不同而特征差异显著(类内变异),不利于语义分割所要求的特征不变性。此外,FSS任务固有的“已见类别偏差”问题在扩散框架下表现为“注意力泄漏”(Attention Leakage),即模型在推理时对未见类别支持信息的关注度不足,导致性能下降。
为了解决这些挑战,发表在《IEEE Access》上的这项研究提出了FS-SegDiff框架。该框架的核心目标是充分利用扩散模型强大的特征能力,同时有效应对类内变异和注意力泄漏问题。
研究人员为开展此项研究,主要采用了以下关键技术方法:首先,基于预训练的Stable Diffusion (SD v2.1)模型进行微调,冻结其编码器和解码器,采用单步训练和推理策略。其次,设计了双向特征融合(Bidirectional Feature Fusion, BDFF)模块,首次在扩散基FSS框架中实现支持特征到查询特征以及查询特征到支持特征的双向信息交互,并通过查询引导键适应(Query-guided Key Adaptation, QKA)机制增强跨图像特征匹配的鲁棒性。第三,提出了多尺度特征匹配(Multi-scale Feature Matching, MSFM)策略,通过生成多尺度支持图像-掩码对,解决扩散模型尺度敏感性问题,提升不同大小物体间的特征匹配效果。第四,针对注意力泄漏问题,引入了支持键放大因子(Support-key Amplifying Factor, SKAF),在推理时放大支持键的影响,补偿对未见类别关注度的不足。模型在COCO-20i、LVIS-92i和FSS-1000等标准FSS数据集上进行评估,采用平均交并比(mIoU)和前景-背景交并比(FB-IoU)作为评价指标。
Bidirectional Feature Fusion (BDFF) with Query-guided Key Adaptation (QKA)
BDFF模块取代了SD模型中的所有自注意力层,构建了支持到查询(S-to-Q)和查询到支持(Q-to-S)两条信息融合路径。QKA机制则通过交叉注意力(CrossAttn)动态调整键(Key)向量,使其更兼容来自另一图像的查询(Query)向量,从而提升跨图像语义对齐效果,而非仅仅关注细节差异。
Support-key Amplifying Factor (SKAF)
通过对注意力泄漏现象进行定量和定性分析(如图5和图6所示),研究发现训练模型对未见类别的注意力激活显著低于已见类别。SKAF(λampK= 1.2)通过在推理时放大支持键特征,有效补偿了这种泄漏,使模型对未见类别的支持信息利用更加充分。
Multi-scale Feature Matching (MSFM)
MSFM策略通过下采样原始支持图像和上采样其局部前景块,然后拼接生成多尺度支持图像-掩码对(图7)。这些多尺度特征与原始特征一起输入BDFF模块,使得模型能够应对查询和支持图像中目标物体尺寸不匹配的情况。
实验结果
在COCO-20i数据集上,FS-SegDiff在1-shot和5-shot设置下的平均mIoU分别达到53.8%和62.5%,超越了包括DiffewS在内的现有SOTA方法(表1)。在更具挑战性的LVIS-92i数据集上,FS-SegDiff也取得了最佳性能(表2)。定性结果(图8、图9)显示,FS-SegDiff预测的掩码具有更高的前景置信度和更少的假阳性/假阴性,特别是在存在显著类内变异或尺度差异的场景下。
消融研究
消融实验(表5)证实了BDFF、QKA、MSFM和SKAF每个组件对性能提升的贡献。对MSFM的定性分析(图10、图11)表明,尺度调整后的支持特征能产生更强、更清晰的注意力交互。对SKAF的超参数搜索(表6、表7)确定λampK= 1.2为最优值,能有效提升所有测试折的性能。
结论与意义
本研究提出的FS-SegDiff框架,通过引入双向特征融合、多尺度特征匹配和注意力泄漏补偿机制,成功解决了扩散模型在少样本语义分割中面临的类内变异和注意力泄漏两大核心挑战。实验结果表明,该框架在多个基准数据集上实现了最先进的性能,且训练效率高。这项工作不仅推动了扩散模型在密集预测任务中的应用边界,也为解决FSS中的关键难题提供了新的思路和技术路径。尽管FS-SegDiff在复杂语义区分和细节保留方面仍存在提升空间(图12),但其核心设计思想为未来研究,如结合显式背景抑制或全局-局部特征融合以进一步提升性能,奠定了重要基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有