大型语言模型(LLMs)的最新进展在自然语言处理(NLP)任务的多个领域取得了显著成果,包括文本生成、摘要生成和问答(Brown等人,2020年;Minaee等人,2024年;OpenAI等人,2023年;Ouyang等人,2022年)。尽管取得了这些成就,但这些模型在获取最新信息或领域特定知识方面仍存在根本性局限。由于LLMs仅依赖于预训练期间编码的参数化知识,它们在需要事实准确性的任务(如开放领域问答)中常常表现不佳(Mallen等人,2023年;Wu等人,2024a)。在没有外部信息源的情况下,LLMs往往会基于猜测或产生看似合理但错误的答案。
为了解决这些限制,检索增强生成(RAG)作为一种有效方法应运而生(Feng等人,2025年;Gao等人,2023年;Guu等人,2020年;Izacard等人,2022年;Lewis等人,2020年)。在RAG中,检索器从外部语料库中获取支持性段落,这些段落作为额外上下文提供给LLM用于生成答案。这使LLMs能够基于可验证的证据进行响应,从而超越其静态的参数化记忆。然而,虽然RAG可以减少错误答案的产生,但也引入了新的挑战。
一个关键问题是,并非所有查询都需要或适合统一应用检索。对于许多简单或常见的查询,模型内部的知识可能已经足够。在这种情况下进行检索不仅会增加不必要的计算成本,还可能因引入无关、冗余甚至误导性的内容而降低答案质量(Jeong等人,2024年;Li等人,2022年;Shi等人,2023年;Zhang等人,2023年)。在极端情况下,检索可能会引入矛盾或有害的信息,从而分散模型对其更可靠内部表示的注意力(Chen等人,2025年;Wu等人,2024b;Zhang等人,2024年)。这引发了人们对何时检索真正有益以及LLMs如何平衡参数化知识和外部知识的兴趣(Feldman等人,2024年;Feng等人,2024年;Hong等人,2024年;Wadhwa等人,2024年)。
这些挑战促使人们开发了自适应检索策略——仅在预期检索有帮助时才触发检索的方法。例如,Adaptive-RAG(Jeong等人,2024年)使用训练有素的分类器来预测问题复杂性,而Self-RAG(Asai等人,2024年)则依赖反射标记来表示不确定性。其他研究(如UniWeb(Li等人,2023年)和FLARE(Jiang等人,2023b)则使用基于预测熵或标记级不确定性的置信度启发式方法。然而,许多这类方法依赖于特定任务的监督、提示调整或与语义正确性不太匹配的不确定性度量。
多跳问答任务由于需要更长的上下文和更复杂的推理链,进一步加剧了这些困难。例如,IRCoT(Trivedi等人,2023年)通过在多个轮次中交替使用检索和生成来构建推理步骤。虽然有效,但这些技术通常资源消耗较大,且与特定模型架构或分解策略紧密相关。
这些方法的一个共同局限性在于它们对不确定性的处理方式。在自由形式生成中,表面形式的多样性使得模型置信度的估计变得复杂:多个词汇上不同但在语义上等价的输出可能会增加标记级熵(Fernando和Stevenson,2008年;Holtzman等人,2021年),从而使预测熵成为知识差距的噪声代理。相反,如果模型错误地做出了自信的判断,低熵可能会掩盖认知不确定性——生成流畅但事实错误的答案。
为了解决这些挑战,我们提出了SUGAR-L:一种基于语义不确定性引导的自适应检索框架,用于处理长上下文。我们的框架在语义空间而不是标记级别估计不确定性,这一概念借鉴了Kuhn等人(Kuhn等人,2023年)提出的语义熵。通过采样多个生成结果并按意义对其进行聚类,SUGAR-L能够判断模型内部知识是否一致或存在分歧,从而提供更准确的不确定性信号。
SUGAR-L能够自适应地决定是否进行检索,以及如果检索,则决定是一次性完成还是分多轮完成。它无需微调、分类器训练或手工制作的提示,因此具有广泛的应用性和模型无关性。为了解决多跳问答中的长上下文问题,我们集成了一种基于LLMLingua(Jiang等人,2023a)的轻量级压缩模块,该模块可将检索到的文档压缩成简洁且语义丰富的摘要,以适应有限的上下文窗口。
我们的贡献如下:
(1)我们提出了SUGAR-L,这是一个基于语义熵引导的自适应检索框架,支持不检索、单步检索和多步检索决策,且无需外部监督。
(2)我们通过集成压缩模块将基线方法扩展到长上下文的多跳问答任务中,从而在严格的输入长度限制下实现有效检索。
(3)我们在单跳和多跳问答数据集上进行了广泛实验,证明SUGAR-L在提高准确性的同时显著降低了检索频率和推理时间。
(4)我们提供了深入分析,包括熵阈值敏感性、超参数调整、检索成本分解和定性案例研究,强调了语义熵作为检索控制信号的鲁棒性和可解释性。