AnomalyLVM：用于零样本异常检测的视觉语言模型

时间：2026年2月3日

来源：Expert Systems with Applications

编辑推荐：

零样本异常检测框架AnomalyLVM通过双视觉编码器（SAM2和DINO-X）融合空间与语义特征，结合动态伪标签增强模块（FEM）实现图像级分类与像素级定位的联合优化，采用对象无关的提示策略提升跨域泛化能力，在17个工业医学数据集上验证有效性。

赵宇晴|孟敏|吴吉刚

广东工业大学计算机科学学院，中国广东省广州市510006

摘要

零样本异常检测（ZSAD）作为一种无需标注训练样本即可识别未见缺陷的方法，已经展现出巨大潜力。然而，现有方法通常仅关注图像级别的检测，而忽略了细粒度的像素级定位。为了解决这一问题，我们提出了AnomalyLVM，这是一个统一的视觉-语言框架，旨在零样本环境下同时处理图像级别分类和像素级别分割。AnomalyLVM利用冻结的SAM2和DINO-X作为双重视觉编码器来提取互补的空间和语义特征，这些特征通过轻量级解码器融合并解码以生成定位图。同时，冻结的CLIP文本编码器通过语义相似性匹配来指导图像级别检测。为了提高像素级监督的准确性，我们引入了特征增强模块（FEM），该模块通过整合来自两个视觉编码器的注意力线索和解码器亲和信号来动态细化静态的LayerCAM图，从而生成更加一致且具有上下文意识的伪标签。此外，我们采用了一种无需提示、对象无关的策略，用可学习的通用提示替换了手工制作的模板，使AnomalyLVM能够在不依赖领域特定知识的情况下泛化到不同的类别和缺陷类型。在来自工业和医疗领域的17个真实世界异常检测数据集上进行的广泛实验表明，AnomalyLVM的性能优于其他ZSAD方法，并且能够更好地泛化到不同的类别甚至领域。代码将在以下链接提供：https://github.com/hanli6688/AnomalyLVM

引言

ZSAD是一种无需依赖特定异常训练样本即可识别异常模式的重要方法，为标注缺陷罕见或不可用的任务提供了一种可扩展的解决方案。它在工业检测和医疗诊断等高风险应用中起着关键作用，在这些应用中，跨未见类别的精确性和泛化能力至关重要。ZSAD还提供了一种有效的方法，用于评估正常实例和异常实例在结构规律性方面的差异（Zhang等人，2024b）。随着视觉-语言模型（VLMs）的快速发展，ZSAD在计算机视觉和模式识别领域受到了越来越多的关注（Hansen、Gautam、Jenssen和Kampffmeyer，2022）。

近年来，将VLMs整合到ZSAD中带来了显著进展，提供了一种新的范式，减少了对外部标注异常数据的依赖，并提高了跨领域的泛化能力（Chin、Zhang、Yeong Khang和Yang，2024）。一系列方法利用预训练模型来增强特征提取和异常定位能力（Zhang、Gao、Liang、Li和Wang，2023a）。例如，基于分割的模型如SAM通过强调精确的对象边界来细化空间表示，从而更准确地定位异常区域（Lei、Li、Fu、Yang和Qin，2024）。同样，自监督视觉模型如DINOv1和DINOv2利用对比学习获得可迁移的表示，而无需显式监督，使它们非常适合识别未见数据中的不规则模式。在医疗领域，MedCLIP将图像特征与专家策划的文本描述对齐，以提高诊断性能（Lee和Kang，2022）；BGAD则结合生成式先验来捕捉外观上的细微偏差以识别异常（Huang等人，2024a）。在工业领域，PromptAD引入了一种单类提示学习策略，通过修改正常提示来生成具有异常意识的表示，从而在数据量少的工业场景中实现有效检测（Flaborea等人，2024）。DeSTSeg通过使用预训练的教师网络和合成扰动的指导来训练去噪学生网络，从而提高细粒度工业缺陷的分割能力。除了表示学习之外，还采用了生成策略来改进异常建模。像APRIL-GAN这样的方法利用对抗学习来模拟正常数据分布，从而能够检测出分布外的异常样本。

然而，尽管取得了这些进展，现有的基于VLM的ZSAD方法仍然面临三个根本限制，这些限制限制了它们在现实世界领域的广泛应用。首先，大多数方法主要计算全局图像-文本相似性来进行图像级别异常检测，而忽略了像素级别定位的联合建模。之前的工作如WinCLIP、One-for-All ZSAD和DeSTSeg主要在粗粒度上操作，这限制了它们在需要高空间精度应用（例如医学病理筛查或工业缺陷检测）中的有效性，因为异常通常表现为小的、细粒度的模式（Cox、Liu、Stolte、Yang和Fang，2024）。其次，许多基于VLM的定位框架依赖于从冻结的CLIP特征生成的静态伪标签，如APRIL-GN和CLIP-Surgery（Holste、Zhou、Wang、Jaiswal和Peng，2024）所示。尽管这些伪标签提供了弱监督，但它们的固定性质阻碍了它们对不同成像条件、变化背景和异构异常结构的适应（Huang、Li、Yang、Liu和Wang，2024b）。因此，使用这种刚性监督信号训练的模型难以捕捉微妙的、依赖于上下文的异常，并且在跨领域转换时经常表现出定位一致性下降。第三，现有模型通常依赖于手工设计的、特定于对象的文本提示来指导图像-文本对齐（Yun等人，2023）。虽然手工制作的提示可以编码有用的先验知识，但它们本质上是不稳定的且依赖于特定领域，正如关于VLM基异常检测的提示敏感性和提示工程的研究所报告的（Gao、Nakayama、Hizukuri和Kido，2025）。这些提示在涉及未见类别或新型缺陷类型的场景中经常失败，从而限制了VLM的跨领域泛化能力，特别是在开放式的工业和医疗环境中。

总体而言，这些限制凸显了需要一个更加通用和适应性强的ZSAD框架的必要性——该框架（i）将图像级别预测与细粒度的像素级别定位结合起来，（ii）用动态学习的特征交互替换静态伪监督，以捕捉领域特定的变化，（iii）通过引入对象无关或无需提示的文本建模来减少对手工制作提示的依赖（Pinaya等人，2022）。这样的设计对于提高鲁棒性和实现工业和医疗异常检测中的强跨领域泛化至关重要。

为此，我们提出了AnomalyLVM，这是一个为ZSAD量身定制的通用视觉-语言框架，如图1所示。它结合了双重冻结的骨干网络和对象无关的提示设计，以共同处理图像级别分类和像素级别分割。与之前过度依赖单一预训练模型的方法不同，AnomalyLVM利用SAM2和DINO-X的互补优势，它们在大规模数据集上的多样化预训练确保了跨领域的强泛化能力。这些编码器作为领域无关的特征提取器，而不是特定于任务的组件，为下游异常推理提供了强大的视觉先验。AnomalyLVM由三个核心组件组成：用于特征提取的双分支编码器、用于定位的分割解码器以及用于提高监督质量的细化模块。在其核心，AnomalyLVM利用SAM2和DINO-X作为冻结的图像编码器来提取互补的视觉特征。这些特征被融合并传递给轻量级解码器以生成分割图。同时，CLIP用于编码语义提示并指导分类。这种双路径架构支持粗粒度和细粒度的异常检测，这在工业和医疗场景中特别有用。为了提高像素级别监督的准确性，我们引入了特征增强模块（FEM），它通过整合SAM2和DINO-X的多头注意力与解码器的亲和图来细化初始的LayerCAMs。这种跨源融合生成了动态伪标签，从而在ZSAD下实现了更好的定位性能。最后，我们采用了一种对象无关的提示策略，用可学习的通用提示（如“损坏的对象”）替换了手工制作的文本模板。这种设计改进了异常表示和跨类别的泛化能力，同时消除了对领域特定知识的依赖。

AnomalyLVM在17个工业和医疗数据集上进行了评估，在图像级别和像素级别异常检测方面展示了最先进的（SOTA）性能。其可扩展性和适应性使其能够在跨领域设置中持续优于现有的基于CLIP和视觉模型的方法。我们的贡献总结如下：

1. 我们提出了一个通用的双粒度架构，它在ZSAD中桥接了图像级别分类和像素级别分割。通过利用冻结的SAM2和DINO-X编码器，AnomalyLVM捕获了细粒度的空间细节和高层次的语义。这些特征被串联并通过轻量级共享解码器解码，从而无需额外的骨干训练即可实现准确的定位。CLIP文本编码器通过生成基于相似性的异常分数来补充这一设计，支持在复杂领域中的分类和分割的联合优化。

2. 我们提出了一个特征增强模块（FEM），它动态地将粗粒度的CAMs细化为高质量的伪标签。FEM整合了来自SAM2和DINO-X的注意力图与解码器的亲和线索，实现了结构一致性和上下文意识。这种设计克服了之前工作中使用的静态CAM的局限性，并在训练期间提供了更准确的监督，特别是在工业和医疗异常场景中提高了分割性能和收敛稳定性。

3. 我们引入了一种无需提示、对象无关的文本建模方案，以消除对手工制作的文本模板的依赖。我们使用像“异常区域”这样的通用描述，并用与视觉线索更好地对齐的可学习模板来增强它们。这种灵活的设计允许CLIP文本编码器适应性地捕获共享的缺陷语义，如裂纹或肿瘤，从而实现跨未见异常类型的泛化，并在零样本设置中减少领域偏见。

部分片段

传统异常检测

传统的异常检测方法通常依赖于对正常样本分布的建模，并计算与该分布的偏差来识别异常。无监督方法如PaDiM、PatchCore和CFlow-AD使用预训练的骨干来提取补丁级特征，并构建基于统计或记忆的正常性模型（Pimentel、Tedeschi、Campos和de Jesus Faria，2024）。PaDiM为每个空间位置估计一个多变量高斯分布，并使用

AnomalyLVM

AnomalyLVM概述：图2展示了AnomalyLVM的整个框架。该框架包括四个主要模块：由SAM2和DINO-X编码器组成的双重冻结骨干网络用于提取图像特征，一个分类过程用于生成初始的LayerCAM，一个解码器用于生成分割预测，以及一个增强的FEM模块用于细化初始的LayerCAM以生成伪标签。训练流程分为以下步骤：

首先，图像被输入到

数据集

我们在工业和医疗异常检测数据集上进行了实验。

对于工业异常检测，我们使用了MVTec AD、VisA、MPDD、BTAD、KSDD、DTD-Synthetic和AeBAD。这些数据集涵盖了各种缺陷类型，从表面瑕疵（MVTec AD）到多类缺陷检测（VisA）、生产线上的微小缺陷（MPDD）、高精度机械和电子缺陷（KSDD）、合成异常模拟

结论

在本文中，我们介绍了AnomalyLVM，这是一个用于零样本异常检测和定位的通用视觉-语言框架，解决了现有方法忽视细粒度像素级别分割的局限性。AnomalyLVM结合了冻结的SAM2和DINO-X作为双重视觉编码器，以提取空间和语义上互补的特征，这些特征通过轻量级分割头解码以生成定位图。冻结的CLIP文本编码器被用来指导