URL2Graph++：一种用于恶意URL检测的统一语义-结构-特征学习方法

时间：2026年2月12日

来源：Information Fusion

编辑推荐：

恶意URL检测需解决URL多样性及攻击者复杂 obfuscation 技术两大挑战。本文提出URL2Graph++框架，通过多粒度图学习（子词级和字符级双图构建）联合BERT语义嵌入与GNN结构建模，动态融合三路特征（语义、结构、字符异常），显著提升检测精度与泛化能力。实验验证其优于SOTA方法，包括对抗攻击和跨数据集场景。

叶天|贾一凡|孙建国|王彦斌|刘志全|凌晓文

中国浙江省杭州市西湖电子科技大学杭州研究院，311231

摘要

恶意URL检测仍然是网络安全领域的一个主要挑战，主要原因有二：（1）互联网的指数级增长导致URL种类极其丰富，使得通用检测变得越来越困难；（2）攻击者越来越多地使用复杂的混淆技术来逃避检测。我们认为，要根本解决这些挑战，需要：（1）获得语义理解，以提高对大量多样化URL的泛化能力；（2）准确建模URL结构中的上下文关系。在本文中，我们提出了一种新的恶意URL检测方法，该方法结合了多粒度图学习和语义嵌入，以共同捕获语义、字符级和结构特征，从而实现强大的URL分析能力。为了建模URL内部的依赖关系，我们首先在子词和字符两个层面构建了双粒度URL图，其中节点代表URL标记/字符，边表示共现关系。为了获得细粒度的嵌入，我们使用字符级卷积网络对节点表示进行初始化。然后通过联合训练的图神经网络（GNNs）处理这两个图，以学习一致的图级表示，使模型能够捕捉反映共现模式和字符级依赖关系的互补结构特征。此外，我们使用BERT来提取URL的语义表示，以实现语义上的理解。最后，我们引入了一个门控动态融合网络，将语义丰富的BERT表示与联合优化的图向量结合起来，进一步提升检测性能。我们在多个具有挑战性的维度上对我们的方法进行了广泛评估：真实世界数据分布、泛化能力、字符混淆和短URL——涵盖了关键的实践挑战。结果表明，我们的方法优于现有的最佳技术（SOTA），包括与大型语言模型的对比。我们的源代码可在以下链接获取：https://github.com/lincozz/URL2Graphplusplus。

引言

恶意URL是具有欺骗性的网页链接，旨在促进网络钓鱼、欺诈、恶意软件分发和命令与控制活动，通常通过冒充可信品牌以及利用超链接展示或重定向来实现[1]，[2]。这类链接通过窃取凭证、泄露隐私和服务中断等方式危害个人和组织[3]，[4]，[5]，[6]。最近的行业和执法报告指出，网络钓鱼的数量和财务后果严重的事件都在持续增加[7]。根据FBI 2024年互联网犯罪投诉中心（IC3）的报告，网络犯罪导致的损失达到了创纪录的166亿美元——比前一年增长了33%——而网络钓鱼和欺骗仍然是报告最多的犯罪类型[8]。这些趋势凸显了开发在对抗性环境中同时具备高准确性和操作鲁棒性的先进检测方法的必要性。

传统的防御措施——黑名单、启发式过滤器和基于规则的系统——仍然是必要的，但它们对新的或混淆的URL覆盖滞后且脆弱[9]，[10]，[11]，[12]。机器学习通过利用长度、标记频率和字符n-gram等词汇模式提高了召回率[13]，而最近的深度架构进一步利用了子词语义和上下文线索。然而，攻击者越来越多地使用短链接和语义伪装，采用子域名嵌套和路径重写，以及同形异义词替换来规避顺序检测器。实际上，有效的系统必须在分布变化下保持性能，以低误报率运行，能够在异构数据源上进行泛化，并整合高层次的语义线索和细粒度的形态学信号。

当前的恶意URL检测方法依赖于使用CNN、RNN或Transformer从URL中获取的顺序表示。然而，这些方法从根本上忽略了定义高级攻击的非顺序关系模式，面临三个限制，这阻碍了它们对不断演变的威胁的有效性：

•
非局部模式盲视——CNN和RNN本质上关注局部顺序模式，无法捕捉语义相关但位置相距较远的标记之间的关键长距离依赖关系（例如，“paypal.com/account/id235/secure/verify.php”中的“account”和“verify”之间的可疑关联，尽管中间有4个标记）。
•
结构无知——现有模型将URL视为线性字符串处理，忽略了URL固有的图状结构（包括主机-路径层次结构和查询参数关系），攻击者通过子域名嵌套（如“login.mail.service.paypal.com.confirm@phishing.com”）或路径混淆等技术系统地利用这一点。
•
字符级近视——虽然一些工作使用了字符CNN，但它们只检测局部n-gram模式，而没有建模系统性的字符级攻击策略，如同形异义词重复（如“g00gle.com”中的连续零替换）、故意拼写错误（如“faceb00k-login”）[14]，或异常的Unicode分布。这些限制共同造成了可测量的漏洞。

为了解决这些限制，我们提出了URL2Graph++，这是一个多粒度学习框架，通过四个关键组件统一了语义、结构和字符级信号：（1）双特征编码，其中BERT提取上下文子词嵌入，而CharCNN捕获字符级异常；（2）双粒度图构建，构建了子词级图（节点由标记嵌入和CharCNN特征组合初始化，以捕获语义-字符交互）和字符级图（节点由CharCNN输出初始化，用于形态学模式分析）；（3）双图学习，通过联合训练的GNNs——子词GNN识别可疑的标记关系，而字符GNN检测混淆模式，通过共享损失函数进行优化，以对齐跨粒度特征；（4）通过门控网络进行自适应融合，动态结合BERT嵌入、子词GNN输出和字符GNN输出，有效处理从语义钓鱼到字符级混淆的各种复杂URL攻击。

这项工作的主要贡献包括：

•
我们提出了第一个级联融合架构，逐步结合了三种互补的信息：（a）深度URL语义、（b）字符级异常和（3）全局依赖模式——实现了强大的URL威胁评估。
•
我们提出了第一种将URL建模为图的方法，引入了一种双粒度图方法，其中子词级和字符级图表示共同训练，以捕获（1）语义-功能共现模式（例如，恶意标记序列如/admin/login.php），（2）异常的字符级依赖关系（例如，随机字符串或同形异义词）。
•
我们的工作在URL分析方面建立了新的最佳技术（SOTA）性能，证明了：（a）对于恶意短URL的检测准确率比之前的最佳方法高出9%，（b）在包括针对URL优化的BERT变体和通用大型语言模型（LLMs）在内的最先进基线中始终表现出色，以及（c）在真实世界数据分布、泛化测试和字符混淆场景中的鲁棒性。