超越静态模式匹配？在大型语言模型（LLMs）时代重新思考自动加密API误用检测机制

时间：2025年11月7日

来源：Proceedings of the ACM on Software Engineering

编辑推荐：

本文系统研究大型语言模型（LLMs）在加密API误用检测中的应用，发现直接应用易产生大量误报，但通过场景适配和新型代码分析验证技术，检测召回率提升至90%，有效超越传统方法并发现63个新漏洞，同时揭示模型在加密知识缺乏和语义误判等盲点。

摘要

尽管自动化检测加密API滥用技术已取得显著进展，但由于依赖手动定义的模式，对于复杂目标而言，其检测精度会下降。大型语言模型（LLMs）提供了基于上下文的理解能力，有助于弥补这一不足，但它们的随机性和“幻觉”问题给其在精确安全分析中的应用带来了挑战。本文首次系统地研究了LLMs在加密API滥用检测中的应用。我们的研究发现具有重要意义：直接应用LLMs会导致超过一半的初始检测结果为误报。尽管如此，通过将检测范围与实际场景对齐，并采用一种新颖的与分析验证技术，基于LLMs的检测可靠性可以得到显著提升，检测召回率接近90%。这一改进大幅超越了传统方法，并在已建立的基准测试中发现了此前未知的漏洞。然而，我们也发现了LLMs存在的反复出现的故障模式，包括加密知识不足和代码语义误解等问题。基于这些发现，我们开发了一个基于LLMs的检测系统，在开源的Java和Python代码库中发现了63个新的漏洞（其中47个已被确认，7个已被修复），这些代码库涵盖了Apache等知名项目。