工业领域中的无监督逻辑异常检测：采用嵌套金字塔融合和参数共享状态空间增强技术优化的Mamba算法

生物通首页 > 今日动态 > 正文

工业领域中的无监督逻辑异常检测：采用嵌套金字塔融合和参数共享状态空间增强技术优化的Mamba算法

时间：2026年2月2日

来源：Neurocomputing

编辑推荐：

无监督逻辑异常检测方法通过嵌套金字塔特征融合与参数共享状态空间增强模块实现，无需图像分割即可有效捕捉长距离依赖关系，在MVTec-LOCO等数据集上像素级检测准确率达75.31%，较基线提升3.36%，同时保持结构异常检测性能。

胡月明|林汉飞|黄慧玲|郭宇航|吴飞斌|龙金环|韩俊

福建农林大学机械与电气工程学院，福州，350100，福建，中国

摘要

近年来，基于无监督学习的异常检测算法在工业检测领域提供了重要的支持。尽管当前的无监督算法在检测结构性异常场景时能够取得优异的性能，但在处理逻辑异常场景的检测任务时效果相对较差。为了克服上述局限性，本研究提出了一种基于Mamba模型框架的无监督逻辑异常检测算法，该算法结合了嵌套金字塔特征融合模块和参数共享的状态空间增强模块。首先，使用特征金字塔网络作为融合方法构建嵌套特征金字塔融合模块，从而充分考虑了每个层次的特殊检测信息。然后，通过改进的特征空间模块解决了由于长距离建模导致的高计算复杂性问题。这两个模块共同作用，解决了单尺度特征无法捕捉逻辑相关性以及图像中组件相关区域长距离建模困难的问题。在专门为逻辑异常检测设计的MVTec-LOCO数据集上进行测试时，所提出的方法在图像级别的准确率为79.41，在AU-ROC指标下的像素级别准确率为75.31，分别比基线方法提高了1.42和3.36。该方法在保持结构性异常检测高效率的同时，也在逻辑异常检测方面达到了最先进水平（SoTA）。

引言

工业图像异常检测是确保工业产品质量和维持稳定生产的关键技术，旨在通过智能算法准确高效地检测工业生产线上的各种缺陷，同时也是深度学习领域的研究热点。工业图像中的缺陷主要分为两类：结构性异常和逻辑异常[1]。结构性异常发生在正常数据中通常不存在的局部区域，而逻辑异常指的是不遵循潜在逻辑约束的数据，例如组件的组成和排列。目前，工业场景下的异常检测研究开始关注无监督方法，这些方法旨在学习正常数据的分布并检测异常值。这些方法在MVTec-AD和VisA等数据集上表现出色。

然而，当前关于逻辑异常检测的研究仍然不足。这项任务需要重点识别图像中违反潜在逻辑约束的情况，例如对象组件的数量、排列和组合错误。尽管之前的工作[2]、[3]通过分割组件并计算其面积或数量取得了进展，但这些依赖于手动像素级注释进行语义分割的方法耗时且成本高昂，难以识别具有相似纹理的组件，并且在包含工业对象的图像中经常失败。尽管有一些先前的小样本或无监督的通用部件分割算法通过隐式考虑多个组件之间的全局依赖性来处理逻辑异常，例如Bergman等人在2022年提出的混合特征重建模型[1]和Tzachor等人在2023年提出的基于直方图的密度估计模型[4]，但由于无法准确区分各种组件，其性能受到限制。为了获得更好的逻辑异常检测结果，最近的研究[5]、[6]强调了产品组件语义分割的必要性，利用制造商对产品组装所需各个元素的先验知识，并使用一组标记图像来指导部件分割，因为这些组件通常具有相似的特征，这不利于特征提取和特征提取网络的学习。然而，为大量训练图像创建像素级注释是一项成本高昂且劳动密集型的任务。尽管小样本分割方法[7]、[8]在减少标记样本数量方面取得了显著进展，但它们也无法分割具有相似纹理或形状的不同部件。

为此，我们引入了一种新的逻辑异常检测模型，该模型旨在在不依赖图像分割技术的情况下完成逻辑异常检测任务，通过综合考虑多级特征信息和建模图像的全局与局部信息之间的长距离依赖性。具体来说，我们使用Mamba模型作为主要框架，设计了一个基于嵌套金字塔网络的多级特征融合模块，逐步融合和增强多层解码器获得的多尺度特征，提高了低级特征在下游任务中的表达能力。我们还使用了一个具有共享权重结构的改进的全局-局部状态空间模型来建模逻辑异常的长距离依赖性，减少了模型参数的数量，避免了Transformer带来的高时间和空间复杂性，从而实现了无需图像分割的准确异常检测。我们的方法在包含逻辑异常和结构性异常的多个公共数据集上进行了评估。结果表明，我们的方法在综合考虑逻辑异常和结构性异常的检测方面表现优于最先进的研究。

本文的结构如下。第2节概述了相关工作，重点介绍了与研究主题相关的关键研究。第3节详细介绍了所提出方法的细节以及使用的评估技术。第4节描述了实验设置和结果，包括训练细节，随后是结合现有研究背景对发现结果的讨论。最后，第5节总结了本文的主要发现。

章节片段

异常检测中的噪声讨论

许多关于异常检测的工作都集中在减轻噪声的影响以提高准确性上。基本假设是噪声具有负面影响；例如，OBJECT-AVEDIT [9]在再生过程中对潜在噪声进行去噪以生成原始对象和所需的编辑对象。然而，一些现有研究表明这一假设并不总是成立。[10]、[11]通过图像分类和对象检测任务的实验进行了探索

整体框架

MNP-LAD的框架如图1所示。它由四个主要组件组成：预训练的CNN编码器、基于嵌套金字塔网络的多级特征融合模块、半FPN瓶颈和基于Mamba的解码器。在我们的实现中，ResNet34编码器使用ImageNet预训练的权重进行初始化，并在整个训练过程中保持冻结。这种设计选择是有意为之，因为MNP-LAD的重点在于增强多尺度融合和时空

数据集

为了评估MNP-LAD的有效性，我们使用了四个工业异常检测数据集进行实验：MVTec-AD、VisA、Real-IAD和MVTec-LOCO。MVTec-LOCO数据集用于验证我们提出的方法在工业场景中检测逻辑异常的适用性和有效性。其余三个数据集用于验证我们的算法是否能够在保持传统结构性异常检测良好性能的同时有效检测逻辑异常

结论

在本文中，我们提出了一种新的无监督逻辑异常检测方法MNP-LAD，该方法通过NPFM和LC-LSS的合作训练来实现多级特征信息提取和关键组件的长距离建模。具体来说，我们提出了基于特征金字塔融合模块的NPFM，具有嵌套结构；LC-LSS具有建立局部和全局特征关系的能力，解决了特征信息多级考虑和效率的问题

CRediT作者贡献声明

胡月明：写作 – 审稿与编辑，撰写 – 原稿，可视化，验证，方法论，调查，形式分析，数据管理，概念化。林汉飞：可视化，数据管理，概念化。黄慧玲：写作 – 审稿与编辑，监督，概念化。郭宇航：可视化，调查。吴飞斌：方法论，形式分析。龙金环：调查，形式分析。韩俊：写作 – 审稿与编辑。