在过去的几年中,不同应用领域的流式数据量显著增加。然而,在实际场景中结合在线学习算法来处理流式数据存在重大障碍,如异常事件、标签不可用以及非平稳环境。
类别不平衡:罕见/异常事件的存在会严重影响模型性能,导致预测偏向正常类别[1]。在处理流式数据时,这个问题变得更加复杂。
标签不可用:大多数异常检测系统通常使用基于特征的方法或基于数据挖掘的方法,这些方法依赖于标记的训练数据[2]、[3]。然而,在实时应用中获取标记数据可能成本高昂,或者在某些情况下,根本无法获得标记数据。
非平稳环境:我们经常假设生成流式数据的过程是平稳的。然而,在许多实际场景中,生成过程表现出一种称为概念漂移的固有非平稳现象。概念漂移可能由多种因素引起,包括季节性模式、周期性波动、用户偏好的变化或行为变化等[4]、[5]。
这三个挑战在现实世界中经常同时存在。在供水网络[6]中,罕见但关键的事件(如传感器故障或污染)与稀缺的标记数据和需求驱动的非平稳性同时发生。在金融领域[7],欺诈交易很少见,新欺诈模式的标签有限,市场条件变化迅速。在健康领域[8],罕见疾病和患者状况的变化加剧了标记的难度和非平稳行为。这些案例说明了共同解决这三个挑战的广泛相关性。
挑战之间的相互作用和示例应用:在标签可用性有限的非平稳流式环境中,类别不平衡使得异常事件变得罕见,而概念漂移不断重塑正常行为,使得区分真实异常和自然分布变化变得困难。因此,漂移检测和适应对于保持与不断变化的数据分布的一致性、减少误报、防止模型退化以及在动态和不平衡的数据流中确保长期可靠性至关重要。这些相互关联的挑战出现在许多实际系统中,包括(a)供水网络污染监测,其中传感器老化和操作变化引起漂移,而真正的污染事件仍然罕见;(b)工业设备监测,其中振动和温度信号随操作条件变化,尽管故障很少见;以及(c)网络安全监测,其中良性流量随用户行为变化,而攻击很少见且通常是突然的。
为了解决这些挑战,理想的预测模型应该:(i)有效识别罕见事件或异常;(ii)适应概念漂移,以确保在非平稳环境中的持续性能;(iii)从未标记的数据中学习,考虑到在某些实际场景中获取标记数据可能不可行。虽然之前的研究已经分别解决了这些挑战,但它们通常在现实场景中同时发生并相互作用。很少有在线方法能够同时处理罕见事件、未标记的数据和非平稳动态。我们的方法不仅解决了这些挑战,还检测了分布漂移的时机。本研究的主要贡献如下:
1.我们提出了VAE++ESDD,这是一种新颖的无监督在线异常检测框架,它利用两级集成来处理非平稳数据流。该框架结合了增量学习(++)和显式的概念漂移检测模块(DD)以实现强大的适应性。第一级集成多个VAE以进行准确检测,而第二级使用漂移检测集成来提高适应性和减少误报。
2.我们使用四种指标在多种数据集上评估VAE++ESDD,并对关键组件进行了消融研究。与基线和最先进的方法相比,我们的方法取得了更好的性能,这得益于其集成设计:多个VAE捕获数据分布的变化,而多个检测器提高了漂移检测的准确性。
VAE++ESDD最初在我们的简短会议论文[9]中以strAEm++DD的名称提出,而这项工作提供了重要的扩展。与我们的初步论文不同:(i)我们提出了一种以两种方式结合集成的方法——一种使用多个增量学习器,另一种使用多个概念漂移检测器;(ii)其他方法论差异包括使用VAE,以及集成自适应阈值进行异常检测;(iii)我们进行了广泛的消融研究,以检查各种组件和超参数的作用;(iv)进行了广泛的研究,将所提出的方法与基线和最先进的方法进行了比较;(v)“相关工作”部分得到了显著丰富。
本文的结构如下。第2节提供了理解本文贡献所需的背景材料。第3节描述了相关工作。第4节介绍了所提出的方法及其计算分析。第5节描述了实验设置。第6节提供了所提出方法的实证分析和学习方法的比较研究。第7节讨论了一些结论性意见。为了使我们的结果可复现,我们使用的数据集和代码已向社区公开。