利用上下文置信度实现大型语言模型中的更智能检索（含变更跟踪修订版）

生物通首页 > 今日动态 > 正文

利用上下文置信度实现大型语言模型中的更智能检索（含变更跟踪修订版）

时间：2026年3月18日

来源：Neural Networks

编辑推荐：

语义不确定性引导的自适应检索框架SUGAR-L通过动态调整单步或多步检索策略，结合长上下文压缩模块有效解决大语言模型的事实一致性问题和上下文长度限制，在单跳和多跳问答基准测试中显著提升答案质量并减少冗余检索。

汉娜·祖布科娃（Hanna Zubkova）|朴智勋（Ji-Hoon Park）|李成焕（Seong-Whan Lee）

韩国大学人工智能系，首尔城北区Anam-ro 145号，02841

摘要

大型语言模型（LLMs）在知识密集型任务中常常因内部知识有限而难以保持事实一致性。检索增强生成（RAG）通过访问外部文档来缓解这一问题，但静态或无差别的检索可能会降低效率和准确性。我们提出了SUGAR-L——一种基于语义不确定性引导的自适应检索框架，该框架能够根据熵衍生的置信信号灵活选择不检索、单步检索或多步检索。SUGAR-L无需特定数据集的监督，并利用语义熵来衡量生成过程中的认知不确定性。对于多跳问答（QA）任务，它集成了一个即插即用的压缩模块，以在模型限制内处理冗长的检索内容。多项实验表明，SUGAR-L在提高答案质量的同时减少了冗余检索和计算量。消融分析和敏感性分析进一步验证了其鲁棒性、可解释性和泛化能力。

引言

大型语言模型（LLMs）的最新进展在自然语言处理（NLP）任务的多个领域取得了显著成果，包括文本生成、摘要生成和问答（Brown等人，2020年；Minaee等人，2024年；OpenAI等人，2023年；Ouyang等人，2022年）。尽管取得了这些成就，但这些模型在获取最新信息或领域特定知识方面仍存在根本性局限。由于LLMs仅依赖于预训练期间编码的参数化知识，它们在需要事实准确性的任务（如开放领域问答）中常常表现不佳（Mallen等人，2023年；Wu等人，2024a）。在没有外部信息源的情况下，LLMs往往会基于猜测或产生看似合理但错误的答案。

为了解决这些限制，检索增强生成（RAG）作为一种有效方法应运而生（Feng等人，2025年；Gao等人，2023年；Guu等人，2020年；Izacard等人，2022年；Lewis等人，2020年）。在RAG中，检索器从外部语料库中获取支持性段落，这些段落作为额外上下文提供给LLM用于生成答案。这使LLMs能够基于可验证的证据进行响应，从而超越其静态的参数化记忆。然而，虽然RAG可以减少错误答案的产生，但也引入了新的挑战。

一个关键问题是，并非所有查询都需要或适合统一应用检索。对于许多简单或常见的查询，模型内部的知识可能已经足够。在这种情况下进行检索不仅会增加不必要的计算成本，还可能因引入无关、冗余甚至误导性的内容而降低答案质量（Jeong等人，2024年；Li等人，2022年；Shi等人，2023年；Zhang等人，2023年）。在极端情况下，检索可能会引入矛盾或有害的信息，从而分散模型对其更可靠内部表示的注意力（Chen等人，2025年；Wu等人，2024b；Zhang等人，2024年）。这引发了人们对何时检索真正有益以及LLMs如何平衡参数化知识和外部知识的兴趣（Feldman等人，2024年；Feng等人，2024年；Hong等人，2024年；Wadhwa等人，2024年）。

这些挑战促使人们开发了自适应检索策略——仅在预期检索有帮助时才触发检索的方法。例如，Adaptive-RAG（Jeong等人，2024年）使用训练有素的分类器来预测问题复杂性，而Self-RAG（Asai等人，2024年）则依赖反射标记来表示不确定性。其他研究（如UniWeb（Li等人，2023年）和FLARE（Jiang等人，2023b）则使用基于预测熵或标记级不确定性的置信度启发式方法。然而，许多这类方法依赖于特定任务的监督、提示调整或与语义正确性不太匹配的不确定性度量。

多跳问答任务由于需要更长的上下文和更复杂的推理链，进一步加剧了这些困难。例如，IRCoT（Trivedi等人，2023年）通过在多个轮次中交替使用检索和生成来构建推理步骤。虽然有效，但这些技术通常资源消耗较大，且与特定模型架构或分解策略紧密相关。

这些方法的一个共同局限性在于它们对不确定性的处理方式。在自由形式生成中，表面形式的多样性使得模型置信度的估计变得复杂：多个词汇上不同但在语义上等价的输出可能会增加标记级熵（Fernando和Stevenson，2008年；Holtzman等人，2021年），从而使预测熵成为知识差距的噪声代理。相反，如果模型错误地做出了自信的判断，低熵可能会掩盖认知不确定性——生成流畅但事实错误的答案。

为了解决这些挑战，我们提出了SUGAR-L：一种基于语义不确定性引导的自适应检索框架，用于处理长上下文。我们的框架在语义空间而不是标记级别估计不确定性，这一概念借鉴了Kuhn等人（Kuhn等人，2023年）提出的语义熵。通过采样多个生成结果并按意义对其进行聚类，SUGAR-L能够判断模型内部知识是否一致或存在分歧，从而提供更准确的不确定性信号。

SUGAR-L能够自适应地决定是否进行检索，以及如果检索，则决定是一次性完成还是分多轮完成。它无需微调、分类器训练或手工制作的提示，因此具有广泛的应用性和模型无关性。为了解决多跳问答中的长上下文问题，我们集成了一种基于LLMLingua（Jiang等人，2023a）的轻量级压缩模块，该模块可将检索到的文档压缩成简洁且语义丰富的摘要，以适应有限的上下文窗口。

我们的贡献如下：

(1)

我们提出了SUGAR-L，这是一个基于语义熵引导的自适应检索框架，支持不检索、单步检索和多步检索决策，且无需外部监督。

(2)

我们通过集成压缩模块将基线方法扩展到长上下文的多跳问答任务中，从而在严格的输入长度限制下实现有效检索。

(3)

我们在单跳和多跳问答数据集上进行了广泛实验，证明SUGAR-L在提高准确性的同时显著降低了检索频率和推理时间。

(4)

我们提供了深入分析，包括熵阈值敏感性、超参数调整、检索成本分解和定性案例研究，强调了语义熵作为检索控制信号的鲁棒性和可解释性。

章节片段

SUGAR-L：基于语义不确定性引导的自适应检索

在本节中，我们介绍了SUGAR-L，这是一种由语义不确定性引导的动态检索增强框架。SUGAR-L在原始SUGAR设计的基础上进行了改进，不仅通过语义熵估计模型的置信度，还通过集成压缩模块扩展了检索的自适应性，以处理复杂的多跳问题。

数据集和指标

我们在涵盖单跳和多跳开放领域问答任务的多个基准数据集上评估了SUGAR-L的性能。

对于单跳问答，我们使用了SQuAD（Rajpurkar等人，2016年）、Natural Questions（Kwiatkowski等人，2019年）和TriviaQA（Joshi等人，2017年）。SQuAD包含来自Wikipedia文章的问题和答案，其中答案通常是文本中的短片段。Natural Questions将Google搜索中的真实用户查询与相应的Wikipedia页面配对。

结果

我们报告了SUGAR和SUGAR-L在单跳和多跳开放领域问答基准测试中的评估结果。性能通过精确匹配（EM）、F1分数和答案准确性来衡量，而检索步骤数量和推理时间则作为效率的指标。对于所有数据集，我们将我们的方法与固定检索策略（不检索、单步检索、多步检索）和最近的自适应策略进行了比较。

语义熵与预测熵

为了进一步评估使用语义熵作为检索控制信号的具体效果，我们进行了一项针对性的消融研究，将SUGAR-L与具有相同架构但检索决策策略不同的几种基线配置进行了比较。具体来说，我们研究了用传统预测熵替换语义熵的效果，同时保持系统的其他部分（检索器、生成器和阈值）不变。

对于这项研究，我们重点关注了两个方面

结论

在这项工作中，我们提出了SUGAR-L，这是一个用于开放领域问答的自适应检索框架，它利用语义不确定性作为控制信号。通过使用语义不确定性，SUGAR-L动态决定是否进行检索以及进行多少次检索，范围从不检索到多步检索。与依赖任务特定启发式方法或标注复杂性标签的先前方法不同，SUGAR-L无需训练。

未引用的参考文献

Clark等人（2018年）；Trivedi等人（2022年）

未引用的浮点数

图2

CRediT作者贡献声明

汉娜·祖布科娃（Hanna Zubkova）：写作 – 审稿与编辑、初稿撰写、可视化、验证、形式分析、数据整理、概念化。朴智勋（Ji-Hoon Park）：监督、软件开发、项目管理。李成焕（Seong-Whan Lee）：监督、项目管理、资金获取。

利益冲突声明

无

致谢

本研究得到了信息通信技术规划评估研究所（IITP）的资助，资金来源于韩国政府（MSIT）（项目编号RS-2019-II190079（韩国大学人工智能研究生项目））、IITP-2025-RS-2024-00436857（信息技术研究中心（ITRC）和RS-2024-00457882（AI研究枢纽项目）。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部