ERSF-AS:基于CLIP-SAM协同与空频先验的可解释递归式零样本异常分割

时间:2026年5月26日
来源:Neurocomputing

编辑推荐:

零样本异常分割(Zero-shot anomaly segmentation, ZSAS)是计算机视觉中的一项核心任务,可为工业质量检测、精密制造、医学图像分析以及自然场景理解等高可靠性应用提供关键支撑。该任务在异常样本稀缺且需要向新域快速部署的场景中尤其展现

广告
   X   

零样本异常分割(Zero-shot anomaly segmentation, ZSAS)是计算机视觉中的一项核心任务,可为工业质量检测、精密制造、医学图像分析以及自然场景理解等高可靠性应用提供关键支撑。该任务在异常样本稀缺且需要向新域快速部署的场景中尤其展现出显著潜力。然而,现有零样本方法存在若干关键瓶颈,包括提示机制(prompt mechanisms)的智能性与适应性不足、异常特征表征能力有限,以及分割结果可解释性较弱,这些问题严重限制了其在工业和医学等专业领域中的可信部署。

为解决上述瓶颈,研究人员提出了一种可解释的递归式零样本异常分割方法,即ERSF-AS。该方法建立在CLIP-SAM协同框架之上,并集成了六个核心模块:用于分层混合提示构建的LHPM、用于多尺度空间提示生成的MSPG、用于空频双域增强的DWFT-Adapter、用于空频引导提示自适应的SDAP、用于分层渐进式分割的HPS,以及用于语义-局部根可解释性的SLR-LRP。该方法采用递归式分割范式,协同利用语义、空间与频率先验,将可学习/可解释提示与空频先验耦合结合,并强制实现分割—解释一致性。

在工业和医学场景下的零样本实验中,ERSF-AS在分割精度与可解释性两个方面均优于现有代表性方法,同时保持了跨域泛化能力与抗噪鲁棒性。研究表明,该方法为在工业和医学应用中实现高置信度零样本异常分割提供了基准性建模范式与理论基础。
本文发表于《Neurocomputing》,聚焦零样本异常分割(Zero-shot anomaly segmentation, ZSAS)在工业视觉检测、精密制造和医学图像分析等高风险场景中的可信应用问题。研究背景在于,这类任务往往要求系统在缺乏目标域像素级标注的条件下,仍能够实现像素级异常定位,并同时兼顾召回率、精确率以及可审计性。现有基于CLIP的零样本方法虽然具有开放词汇语义对齐能力,但通常只能生成较粗糙的异常热图,易出现边界伪影、语义漂移以及小目标遗漏;基于SAM的方法虽然具有较强的边界刻画能力,却高度依赖准确的点或框提示,一旦提示偏差,容易分割出整目标而非真实缺陷区域。已有CLIP+SAM级联方法在一定程度上提升了召回率和边界质量,但仍存在提示生成静态、缺少反馈回路、弱异常空频信息建模不足以及像素级可解释性缺失等问题。正因如此,研究人员开展本研究,旨在构建兼具高精度、强鲁棒性和可解释性的零样本异常分割框架,以满足工业安全和医学合规中的高可信部署需求。

围绕上述问题,研究人员提出ERSF-AS(Explainable Recursive ZSAS with Spatial-Frequency Priors via CLIP-SAM Collaboration)框架,构建语义—空间—频率三域协同的递归分割范式,以针对提示漂移、弱异常不可见以及解释不足三大挑战。该框架由六个模块构成:LHPM(Layered Hybrid Prompt Module,分层混合提示模块)用于联合可解释模板与可学习属性,形成更稳健且具有自适应性的语义先验;MSPG(Multi-scale Spatial Prompt Generation,多尺度空间提示生成)将文本语义映射为多尺度点/框提示,以覆盖大、中、小不同尺度异常;DWFT-Adapter(Discrete Wavelet-Fourier Transform Adapter,离散小波-傅里叶变换适配器)引入多频带小波-傅里叶分解频率线索,以强化高频边缘、周期纹理和低频结构;SDAP(Spatial-Frequency Guidance Dependent Abnormality Prior,空频引导依赖异常先验)利用空间—频率一致性递归校准可学习提示,从而抑制提示漂移并增强低对比度细粒度异常;HPS(Hierarchical Progressive Segmentation,分层渐进式分割)通过迭代方式逐步细化掩膜直至收敛;SLR-LRP(Semantic-Local Root Layer-wise Relevance Propagation,语义-局部根逐层相关传播)则生成稳定的像素级归因图,以支持可量化、可审计的决策解释。研究结论表明,该方法在工业与医学零样本实验中同时提升了分割精度与解释能力,并保持跨域泛化与抗噪性能,具有为高置信度ZSAS提供建模范式与理论支撑的重要意义。

从技术方法上看,本文采用跨数据集零样本异常分割实验范式:模型在源数据集训练,在目标数据集测试。工业场景使用MVTec-AD与VisA,采用在MVTec-AD训练、在VisA测试的交叉验证设置;医学场景涉及Brain MRI(11,298张切片)、Liver CT(3,201张切片)和Retina OCT(6,217张图像)。核心方法包括:基于CLIP-SAM协同的递归式分割架构;分层语义提示与多尺度空间提示联合构建;基于离散小波与傅里叶分解的空频双域增强;利用空间—频率一致性进行提示自适应校准;以及通过逐层相关传播实现像素级可解释归因。

以下结合论文主体内容进行分段解读。

ZSAS
论文首先回顾了零样本异常分割的发展脉络。该任务旨在无需目标域像素标注的条件下,在目标域实现像素级异常定位。研究指出,该领域已从传统统计方法与手工特征方法,逐渐发展到基于重建、密度估计和对比学习的深度学习方法,再进一步演进到借助大规模预训练视觉—语言模型和通用分割模型的零样本框架。文中归纳了CLIP类方法、SAM类方法以及二者联合方法的优势与局限:CLIP擅长开放词汇语义对齐,但定位较粗、边界不准;SAM擅长精细边界分割,但受提示质量制约显著;联合框架虽然兼顾部分优势,但在提示稳定性、弱异常感知和可解释性方面仍未形成系统解决方案。由此,论文明确了ERSF-AS提出的必要性。

ERSF-AD framework
在框架部分,研究人员提出ERSF-AS总体体系,强调其面向高风险工业与医学场景的可部署性与可信性。该体系被设计为语义—空间—频率协同递归分割范式,核心目标是同时解决提示漂移、弱异常不可见和缺乏可解释性三项关键问题。论文指出,六个子模块共同构成一个闭环:LHPM负责构建分层语义先验,增强文本提示的稳健性与适应性;MSPG把语义信息转换为多尺度空间提示,使SAM能够更全面覆盖不同尺寸异常区域;DWFT-Adapter从频率域补充高频和周期结构信息,改善复杂纹理、镜面反射、遮挡及噪声条件下的异常表征;SDAP通过空频一致性对提示进行递归校正,缓解静态提示在域偏移条件下的失稳问题;HPS通过层级化、渐进式迭代不断优化分割边界和区域完整性;SLR-LRP则为最终异常分割结果生成稳定的像素级因果归因图,保证分割结果具有审计性。该部分实质上给出了本文方法论的系统组织方式,表明ERSF-AS并非简单的CLIP与SAM串联,而是通过多模块递归耦合建立协同优化机制。

Experimental setup
在实验设置部分,研究人员采用跨数据集ZSAS范式,以验证模型的跨域泛化能力。工业场景选用MVTec-AD和VisA两个常用异常检测数据集,其中MVTec-AD包含15类工业产品及多样化异常类型,VisA包含12类物体类别;医学影像数据集包括Brain MRI、Liver CT与Retina OCT。论文特别强调,在工业数据上采用训练于MVTec-AD、测试于VisA的设置,这有助于评估模型在不同数据分布之间的迁移能力。通过同时覆盖工业与医学场景,实验设计体现出ERSF-AS面向异构域高风险应用的普适性验证思路。摘要中进一步指出,实验结果显示该方法在分割准确率和可解释性方面均优于代表性已有方法,并保持较强的抗噪声能力与跨域鲁棒性。

研究结果
从结果层面看,论文的核心结论主要围绕三方面展开。第一,针对提示漂移和弱异常不可见问题,ERSF-AS通过递归式CLIP-SAM协作以及空频双域增强,显著提升了零样本异常分割在工业与医学领域中的准确性与鲁棒性。该结论源于对LHPM、MSPG、HPS与SDAP协同设计的整体验证,说明语义提示、空间提示和递归校准机制能够形成有效互补。第二,针对高频边缘和低对比度异常检测不足的问题,DWFT-Adapter通过多频带小波-傅里叶分解实现空频先验耦合,显著增强了弱异常检测能力,同时保持边界精度。该结果表明,引入频率域结构线索对于处理细粒度、低可见度、周期纹理类异常具有重要作用。第三,针对异常分割决策缺乏可信解释的问题,SLR-LRP实现了语义—局部根逐层相关传播,能够输出可量化的因果归因图,从而为异常分割结果提供可审计解释。该结果说明,本文不仅关注性能提升,也将可解释性纳入模型核心设计目标,实现了分割与解释的一致性约束。

Conclusion
结论部分指出,ERSF-AS通过语义—空间—频率三域协同的递归分割范式,在异常特征表征、提示自适应优化以及决策可解释性方面实现了系统性提升。该框架利用LHPM和MSPG协同构建语义与空间先验,利用DWFT-Adapter和SDAP实现空频双域特征增强,利用HPS和SLR-LRP完成渐进式分割与可解释归因,从而形成完整闭环。结合摘要与结论信息可知,研究人员认为该方法在工业和医学零样本实验中优于现有代表性方法,兼具分割精度、解释能力、跨域泛化性和噪声鲁棒性,并为工业及医学应用中的高置信度零样本异常分割提供了基准性建模范式与理论基础。

对讨论部分的总结可概括为:本文针对当前零样本异常分割在真实高风险场景中面临的三大核心短板——提示稳定性不足、弱异常感知能力有限以及结果缺少可信解释——提出了具有模块化和递归闭环特征的系统方案。其学术价值在于,将视觉—语言先验、通用分割先验与空频双域信息显式耦合,并把可解释性从附加分析提升为模型设计中的内生组成部分。其应用意义在于,为工业检测和医学图像分析中的高可靠自动化分割提供了更具可迁移性、可审计性和抗干扰性的技术路径。

研究结论翻译如下:
本文提出ERSF-AS,这是一种递归式零样本异常分割框架。该框架通过语义—空间—频率三域协同的递归分割范式,在异常特征表示、提示自适应优化以及决策可解释性方面实现了系统性提升。该框架利用LHPM与MSPG协同构建语义先验和空间先验,利用DWFT-Adapter与SDAP实现空频双域特征增强,并利用HPS与SLR-LRP实现渐进式分割与可解释分析。

生物通微信公众号
微信
新浪微博


生物通 版权所有