基于漂移感知的变分自编码器异常检测方法,采用两级集成技术

时间:2026年2月15日
来源:Neurocomputing

编辑推荐:

针对流数据中无标签、类不平衡及概念漂移的挑战,本文提出VAE++ESDD方法,通过双层集生效用(VAE异常检测与概念漂移检测)和增量学习,有效识别低频异常并适应动态数据分布,实验证明其优于基线及SOTA方法。

广告
   X   

Jin Li|Kleanthis Malialis|Christos G. Panayiotou|Marios M. Polycarpou
塞浦路斯大学KIOS研究与创新卓越中心,尼科西亚,塞浦路斯

摘要

在当今的数字世界中,各个领域中产生大量流式数据已经变得普遍。然而,这些数据中的许多都是未标记的,这使得识别事件(特别是异常事件)变得具有挑战性。在非平稳环境中,这一任务变得更加困难,因为模型性能可能会随着时间的推移而由于概念漂移而下降。为了解决这些挑战,本文提出了一种新颖的方法VAE++ESDD,该方法采用了增量学习和两级集成:一组变分自编码器(VAE)用于异常预测,以及一组概念漂移检测器。每个漂移检测器都使用基于统计的概念漂移机制。为了评估VAE++ESDD的有效性,我们使用具有严重或极低异常率以及各种漂移特征的真实世界和合成数据集进行了全面的实验研究。我们的研究表明,所提出的方法显著优于现有的基线和最先进的方法。

引言

在过去的几年中,不同应用领域的流式数据量显著增加。然而,在实际场景中结合在线学习算法来处理流式数据存在重大障碍,如异常事件、标签不可用以及非平稳环境。
类别不平衡:罕见/异常事件的存在会严重影响模型性能,导致预测偏向正常类别[1]。在处理流式数据时,这个问题变得更加复杂。
标签不可用:大多数异常检测系统通常使用基于特征的方法或基于数据挖掘的方法,这些方法依赖于标记的训练数据[2]、[3]。然而,在实时应用中获取标记数据可能成本高昂,或者在某些情况下,根本无法获得标记数据。
非平稳环境:我们经常假设生成流式数据的过程是平稳的。然而,在许多实际场景中,生成过程表现出一种称为概念漂移的固有非平稳现象。概念漂移可能由多种因素引起,包括季节性模式、周期性波动、用户偏好的变化或行为变化等[4]、[5]。
这三个挑战在现实世界中经常同时存在。在供水网络[6]中,罕见但关键的事件(如传感器故障或污染)与稀缺的标记数据和需求驱动的非平稳性同时发生。在金融领域[7],欺诈交易很少见,新欺诈模式的标签有限,市场条件变化迅速。在健康领域[8],罕见疾病和患者状况的变化加剧了标记的难度和非平稳行为。这些案例说明了共同解决这三个挑战的广泛相关性。
挑战之间的相互作用和示例应用:在标签可用性有限的非平稳流式环境中,类别不平衡使得异常事件变得罕见,而概念漂移不断重塑正常行为,使得区分真实异常和自然分布变化变得困难。因此,漂移检测和适应对于保持与不断变化的数据分布的一致性、减少误报、防止模型退化以及在动态和不平衡的数据流中确保长期可靠性至关重要。这些相互关联的挑战出现在许多实际系统中,包括(a)供水网络污染监测,其中传感器老化和操作变化引起漂移,而真正的污染事件仍然罕见;(b)工业设备监测,其中振动和温度信号随操作条件变化,尽管故障很少见;以及(c)网络安全监测,其中良性流量随用户行为变化,而攻击很少见且通常是突然的。
为了解决这些挑战,理想的预测模型应该:(i)有效识别罕见事件或异常;(ii)适应概念漂移,以确保在非平稳环境中的持续性能;(iii)从未标记的数据中学习,考虑到在某些实际场景中获取标记数据可能不可行。虽然之前的研究已经分别解决了这些挑战,但它们通常在现实场景中同时发生并相互作用。很少有在线方法能够同时处理罕见事件、未标记的数据和非平稳动态。我们的方法不仅解决了这些挑战,还检测了分布漂移的时机。本研究的主要贡献如下:
  • 1.
    我们提出了VAE++ESDD,这是一种新颖的无监督在线异常检测框架,它利用两级集成来处理非平稳数据流。该框架结合了增量学习(++)和显式的概念漂移检测模块(DD)以实现强大的适应性。第一级集成多个VAE以进行准确检测,而第二级使用漂移检测集成来提高适应性和减少误报。
  • 2.
    我们使用四种指标在多种数据集上评估VAE++ESDD,并对关键组件进行了消融研究。与基线和最先进的方法相比,我们的方法取得了更好的性能,这得益于其集成设计:多个VAE捕获数据分布的变化,而多个检测器提高了漂移检测的准确性。
  • VAE++ESDD最初在我们的简短会议论文[9]中以strAEm++DD的名称提出,而这项工作提供了重要的扩展。与我们的初步论文不同:(i)我们提出了一种以两种方式结合集成的方法——一种使用多个增量学习器,另一种使用多个概念漂移检测器;(ii)其他方法论差异包括使用VAE,以及集成自适应阈值进行异常检测;(iii)我们进行了广泛的消融研究,以检查各种组件和超参数的作用;(iv)进行了广泛的研究,将所提出的方法与基线和最先进的方法进行了比较;(v)“相关工作”部分得到了显著丰富。
    本文的结构如下。第2节提供了理解本文贡献所需的背景材料。第3节描述了相关工作。第4节介绍了所提出的方法及其计算分析。第5节描述了实验设置。第6节提供了所提出方法的实证分析和学习方法的比较研究。第7节讨论了一些结论性意见。为了使我们的结果可复现,我们使用的数据集和代码已向社区公开。

    部分摘录

    初步介绍

    在线学习处理的数据生成过程在每个时间步骤提供一批示例,表示为,其中每个批次定义为。步骤的总数由表示,数据通常来自一个长序列,可能是无限的。每个步骤中的示例数量表示为。当时,称为逐个在线学习;而对于,则称为批量在线学习[4]。本工作特别关注逐个在线学习

    在非平稳环境中的学习

    通常采用两种主要策略来学习概念漂移:被动方法和主动方法[4]、[14]。这些方法在应对变化的适应机制上有所不同。

    VAE++ESDD方法

    这种混合方法巧妙地结合了被动和主动方法的优势,以高效地解决概念漂移问题。通过利用集成学习,每个组件的性能都得到了优化,从而提高了整体模型的效果。受到这些概念的启发,我们引入了VAE++ESDD,这是一种新颖的方法,它结合了集成增量学习(被动方法)和集成漂移检测器(主动方法)。伪代码可以在算法1中找到

    数据集

    我们的实验研究考虑了(i)合成数据集(Sea、Circle、Sine、Vib)和真实世界数据集(MNIST-01、MNIST-multi、MNIST-23、Forest、Fraud、Arrhy),以及(ii)不平衡率为1%(严重)和0.1%(极端)的情况。不同数据集中还考虑了反复漂移和增量漂移。所有数据集的描述可以在表2中找到,其中‘C0’和‘C1’分别代表正常类和异常类。
    合成数据集:
    Sea[68]有两个特征及其类别

    实验结果

    在以下消融研究和比较研究中,我们调查了所提出框架的几个关键机制,包括漂移检测(VAE++ vs. VAE++DD)、增量学习(Baseline vs. VAE++ES)、预测器集成(VAE++ vs. VAE++ES)和漂移检测器集成(VAE++ES vs. VAE++ESDD)的影响。此外,我们将所提出的方法与具有不同方法论特征的代表性方法进行了比较:基于树和密度的异常检测方法

    结论

    从数据流中提取模式面临重大挑战,包括识别异常事件、地面真实数据的不可用性以及适应非平稳环境。为了解决这些挑战,我们提出了一种创新方法,即VAE++ESDD,该方法利用集成学习、基于VAE的增量学习和漂移检测,从而将自编码器的应用扩展到在线学习,并结合了主动-被动混合方法

    CRediT作者贡献声明

    Jin Li:写作 – 审稿与编辑,撰写原始草稿,可视化,软件,方法论,概念化。Kleanthis Malialis:写作 – 审稿与编辑,监督。Christos G. Panayiotou:写作 – 审稿与编辑。Marios M. Polycarpou:写作 – 审稿与编辑,监督,资金获取。

    利益冲突声明

    作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:
    鉴于K. M.担任副编辑的角色,他没有参与本文的同行评审,也没有访问有关其同行评审的信息。本文的编辑过程的全部责任委托给了另一位期刊编辑。如果有其他作者,他们声明没有已知的利益冲突
    Jin Li获得了西北工业大学(中国)的航空工程学士学位。随后,她在里昂INSA获得了机械设计工程师文凭,并在Data ScienceTech Institute(法国)获得了数据科学与人工智能的应用硕士学位。2022年1月,她加入塞浦路斯大学电气与计算机工程系攻读博士学位,并在KIOS研究中心担任兼职高级科学家

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有