相关研究
相关工作
恶意URL检测在网络安全和机器学习的交叉领域得到了广泛研究。随着攻击者越来越多地利用语义混淆、结构操作和字符级扰动,研究社区已经从手动特征工程发展到端到端的神经架构,这些架构能够在多个粒度上对URL进行建模。以下是我们工作中最相关的三条研究路线:
方法论
在本节中,我们介绍了URL2Graph++,这是一个多粒度学习框架,旨在捕获恶意URL的语义、结构和字符级模式。所提出的URL2Graph++框架的概述如图1所示。与纯粹的顺序建模方法不同,我们的方法在子词和字符两个层面构建并利用了双粒度图表示,使其能够捕获全局共现依赖关系和形态学特征
数据集
为了全面评估所提出的URL2Graph++框架,我们使用了三个公开可用的数据集,这些数据集在样本大小、类别平衡和顶级域名(TLD)分布方面存在显著差异。选择这些数据集是为了在互补条件下测试模型,包括类别平衡设置、极端类别不平衡和跨数据集验证。详细的数据集统计信息总结在表2和表3中。
GramBeddings数据集。 GramBeddings数据集[35]
实验
在本节中,我们详细制定了一个全面的实验协议,以评估我们提出方法的有效性。我们设计并进行了五种类型的实验,每种实验旨在评估模型在不同数据集分布、攻击条件和输入变化下的具体表现。
•基准测试。我们在两个数据集上评估了我们模型的分类性能,其中一个数据集的标签相对平衡
讨论
在本节中,我们深入讨论了URL2Graph++的实验结果,强调了其有效性、泛化能力、架构优势及其实际意义。分析综合了来自数据扩展、跨数据集验证、消融研究和对抗性评估的证据,提供了对模型性能和贡献的全面理解。
局限性和未来工作
尽管URL2Graph++在多种数据集和场景中表现出色,但仍存在一些局限性,并指出了未来研究的方向:
•对抗性操作的鲁棒性:尽管我们的方法在混淆和分布变化下表现出韧性,但其对抗自适应攻击的鲁棒性尚未得到充分探索。未来的工作应该研究潜在的漏洞,并结合防御机制,如对抗性训练、认证