综述:一项关于使用不完整数据进行网络流量分析的调查

时间:2026年3月16日
来源:Computer Communications

编辑推荐:

AI驱动的网络流量分析中数据不完整性问题研究综述。本文系统分析近五年55篇网络流量分析研究,揭示仅10篇关注数据不完整性影响,存在显著研究空白。从四个维度构建框架:1)数据丢失场景分为网络性能管理、测量和分类三类;2)缓解方法包含数据恢复、预测、增强等数据centric方案和模型集成、鲁棒特征等模型centric方案;3)特征表示层级涵盖数据包级、流级及专用结构;4)评估指标分为数据恢复、插补误差和分类效果三类。为理论到实践转化提供结构化参考。

广告
   X   

李正鹏|赵双|陈淑慧|王碧颖|王敏鑫
国防科技大学计算机科学与技术学院,中国湖南省长沙市410073

摘要

近年来,基于人工智能的网络流量分析取得了一系列研究成果,并展示了显著的优势。现有的网络流量分析解决方案通常以获取或保留完整的流量数据为前提,但在当前的网络传输模型下这仍然具有挑战性。可以预见,当这些解决方案被考虑用于实际网络环境中的部署或应用时,不完整的流量数据将对它们的性能产生重大影响。通过对过去五年中七场代表性会议上的55项最新网络流量分析研究进行调查,我们发现只有10项研究关注了数据不完整性的影响,这表明当前研究尚未充分重视这一实际问题。为了弥合理论进展与实际部署限制之间的差距,提高对处理不完整流量数据的认识和创新,本文综述了网络流量分析领域中涉及数据不完整性的研究,包括但不限于我们在初步分析中提到的七场代表性会议的研究内容。本文从以下四个角度分析了现有研究:数据丢失场景、数据丢失缓解方法、特征表示和评估指标。具体来说,数据丢失场景被分为三种类型:网络性能管理、网络测量和流量分类。对于数据丢失缓解方法,我们考察了五种主要方法:数据丢失恢复、数据丢失预测、数据增强、分类器集成和鲁棒特征表示。特征表示的讨论集中在三个粒度级别:数据包级别、流级别和其他专门的数据结构。最后,评估指标从三个维度进行分析:数据恢复指标、插补误差指标和流量分类指标。本综述不仅突出了处理不完整流量数据的关键研究空白,还为未来的研究提供了一个结构化的框架。

引言

网络的快速发展带来了新型网络设备的出现、网络传输路径的扩展以及网络流量的显著增加。根据国际电信联盟(ITU)2024年报告[1]的数据,互联网用户数量已达到55亿,宽带流量使用量分别为5.1 ZB(桌面用户)和1.3 ZB(移动用户)。对于大规模的网络流量数据,网络流量分析技术已成为网络管理和安全分析的关键工具。通过监控和识别流量传输模式,网络流量分析技术可以检测网络性能瓶颈、发现异常行为并识别安全威胁,从而优化网络资源分配、保护网络环境并支持数据驱动的决策制定。
尽管网络流量分析是一项成熟的技术,但它不断面临网络变化带来的新挑战。例如,加密等技术通过消除流量负载中的明显字符串格式规则,对传统的网络流量分析解决方案(如深度包检测)构成了重大挑战。近年来,通过将人工智能(AI)应用于网络流量分析[2]、[3]、[4],取得了一系列进展。基于AI的网络流量分析解决方案将网络流量转换为代表性的流量特征,并选择机器学习和深度学习模型来实现自动分析[5]、[6]。由于大多数设计的流量特征是与负载无关的旁路特征(如数据包长度和数据包到达时间),基于AI的网络流量分析在分析封装的流量数据方面表现出良好的性能,目前已成为首选解决方案。
基于AI的网络流量分析解决方案的主要特点是它们需要大量的网络流量数据进行模型学习。在模型学习过程中,输入模型的数据主要是从预处理后的流量对象(如数据包、双向流)中提取的数值特征,这些特征通常被组织成向量。因此,特征的准确性和完整性对模型的合理性和有效性起着决定性作用[7]。这些解决方案侧重于从完整数据中提取有效特征,并设计兼容的模型来学习其中的模式。然而,在实际网络环境中,由于链路不稳定和捕获能力有限,捕获的流量数据中存在不可忽视的数据丢失现象。因此,尽管这些特征和模型在实验室中表现良好,但在数据丢失环境中提取的特征将出现分布偏斜,从而无法被训练好的模型正确处理。因此,当这些解决方案被部署到实际网络环境中时,可以预见模型性能会显著下降。
特别是,我们确定了由四个因素引起的三种流量数据丢失类型。首先,网络链路的不稳定性(如网络拥塞、链路损坏[8]、[9]、无线网络不稳定[10]等)可能导致数据包级数据丢失,即一次完整通信中一个或多个数据包的丢失。其次,部署在特定位置的路由器总是只在一个方向上传输数据包。因此,在这些位置捕获的流量数据将遭受流级数据丢失,即另一个方向的所有数据包丢失。第三,离线分析解决方案需要在分析之前存储流量数据。然而,当网络流量数据量非常大时,存储全部流量数据并不总是可行的。在这种情况下,截断流量数据然后存储它是一个替代方案,例如只存储每个数据包的前N个字节。这将导致字节级数据丢失。类似地,在某些受限的分析环境中(例如,监管机构仅允许提供截断的流量数据以保护用户隐私时),也可能发生字节级数据丢失。在上述四个因素中,前两个因素是网络固有的,在当前的网络架构下将持续存在。后两个因素与当前的存储能力和数据管理实践相关,其影响会随着技术或政策的发展而变化。为明确起见,本文将上述流量数据丢失称为数据不完整性。
随着现实世界网络环境中数据不完整性的普遍性增加,基于AI的网络流量分析解决方案在其实现中考虑数据不完整性对于确保其鲁棒性和有效性至关重要。本文概述了当前关于网络流量分析中数据不完整性的研究现状。我们从四个角度详细分析了现有研究:数据丢失场景、数据丢失缓解方法、特征表示和评估指标,并系统地总结了当前的研究状态,为未来的研究提供了结构化的框架。据我们所知,目前还没有文献系统地概述网络流量分析中的数据不完整性问题。我们的工作试图填补这一研究空白。
本文的其余部分组织如下。第2节介绍了网络流量分析中数据不完整性的现状。第3节对数据不完整性下的网络流量分析解决方案进行了系统分类。然后,第4节、第5节、第6节和第7节分别详细分析了处理数据不完整性的研究。第4节分析了数据丢失场景。第5节详细介绍了缓解数据丢失的方法。第6节讨论了研究中使用的特征表示。第7节介绍了评估指标。最后,第8节对本文进行了总结。

章节片段

数据不完整性问题的概述

本节调查了过去五年中七场代表性会议上的一些最新网络流量分析工作。这些会议包括ACM计算机与通信安全会议(CCS)、IEEE安全与隐私研讨会(S&P)、USENIX安全研讨会(USENIX Security)、网络与分布式系统安全研讨会(NDSS)、ACM国际应用、技术、架构和计算机协议会议

具有数据不完整性的网络流量分析

本节首先总结了已经解决数据不完整性问题的现有工作,并分析了它们采用的策略,然后提供了这些策略的系统分类。
总体而言,我们从四个关键角度分析了这些工作:(1)研究目的:根据网络分析目标将数据丢失处理场景分为网络性能管理、网络测量和流量分类;(2)方法论:数据丢失缓解方法

数据丢失场景

在本节中,根据网络分析目标,将分析方案分为三类:网络性能管理、网络测量和流量分类。网络性能管理是指一系列监控、分析和优化网络系统资源运行状态和通信效率的活动,以确保稳定性、可靠性和高性能。网络测量涉及收集和分析

数据丢失缓解方法

在本节中,分析方案分为两类:以数据为中心和以模型为中心。以数据为中心的方案的主要思想是优化数据质量,以屏蔽缺失数据对后续分析模型的影响,使数据不完整性问题对模型透明。该类别下的方法包括三种方案:数据丢失恢复、数据丢失预测和数据增强。以模型为中心的方案

特征表示

在本节中,分析分为不同的特征表示类型。常见的特征表示包括:数据包级别、流级别和其他专门的数据结构。数据包级别指的是网络通信中单个数据包的结构和属性,作为网络层的基本传输单元,包括控制信息和负载。流级别表示具有相同特征的数据包集合(例如,5元组)

评估指标

在本节中,我们对相关工作中使用的评估指标进行了系统分析。这些指标根据应用目标分为三类:数据恢复指标、插补误差指标和流量分类指标。数据恢复指标主要关注数据包恢复,并作为恢复效果的评估标准。插补误差指标主要评估数据包预测的准确性,提供评估方案

结论

本文调查和分析了最新的网络流量分析研究,特别关注处理数据不完整性的研究。我们的调查表明,机器学习和深度学习是目前网络流量分析任务中最常用的方法。然而,大多数这些方法忽略了数据不完整性问题,这对方法在现实世界动态网络环境中的可用性和可靠性有显著影响。

CRediT作者贡献声明

李正鹏:撰写——原始草稿,调查。赵双:撰写——审阅与编辑,撰写——原始草稿。陈淑慧:撰写——审阅与编辑。王碧颖:调查。王敏鑫:调查。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有