一种用于多意图口语理解的两阶段折线图推理框架

生物通首页 > 今日动态 > 正文

一种用于多意图口语理解的两阶段折线图推理框架

时间：2026年2月15日

来源：Neurocomputing

编辑推荐：

多意图口语理解；线图神经网络；交叉注意力编码；槽标记；意图预测

段世杰|余龙|田胜伟

新疆大学计算机科学与技术学院，乌鲁木齐830000，中国

摘要

口语理解（SLU）是对话系统的核心组成部分，负责意图检测和槽填充，以解释用户的话语。我们提出了一个基于线图的两阶段框架，用于联合处理多意图 SLU。在第一阶段，我们的模型使用交叉注意力来编码词元级和意图级的特征，并利用领域信息进行初步的槽标记和意图预测。在第二阶段，我们根据第一阶段的输出构建一个意图-槽图，然后应用线图神经网络来明确模拟每个意图及其相关槽之间的交互。这种线图推理机制减少了多个意图之间的干扰，实现了有效的双向信息流，从而增强了意图和槽线索的语义融合。在MixATIS和MixSNIPS基准测试上的实验，以及在混合话语的具有挑战性的BlendATIS和BlendSNIPS数据集上的实验表明，所提出的方法优于现有的最先进模型，实现了更高的槽填充F₁分数、意图分类准确性和整体句子级理解准确性。

引言

以任务为导向的对话系统（TODs）在现代人机交互中变得越来越重要，使用户能够通过自然语言对话实现特定目标。这些系统严重依赖于SLU，SLU充当将用户话语转换为下游组件可以处理的结构化语义表示的桥梁。

SLU通常包括两个基本子任务：意图检测和槽填充。意图检测将用户话语分类为一个或多个意图类别，而槽填充则识别和标记话语中的语义成分[1]。更广泛地说，意图驱动的决策机制和意图条件动态的可预测性也在网络经济游戏、人口级遗憾动态以及标记Petri网的可预测性验证中进行了研究[7]、[14]、[33]。如图1所示（该图来自MixSNIPS数据集[25]），一个话语可能包含多个意图，例如“AddToPlaylist”用于“ramy ayach on latin pop rising”和“SearchScreenEvent”用于“find the schedule for the kentuckians”。槽填充使用BIO标记方案为每个词元标注其语义角色，例如“ramy ayach”的B-artist、I-artist。我们将槽填充视为在BIO定义的跨度上进行跨度级别的槽类型划分。

SLU研究的演变可以追溯到1990年的开创性ATIS数据集[12]，随后的基准测试如SNIPS[8]显著提高了单意图场景的性能。由于现实世界中的对话通常涉及多个同时存在的意图，研究重点已经转移到了多意图基准测试，如MixATIS和MixSNIPS[25]。最近，BlendX[43]引入了包括BlendATIS和BlendSNIPS在内的改进的多意图数据集，这些数据集使用基于规则的启发式方法和生成模型从单意图语料库中生成“混合”话语，产生了比原始MixX系列更加多样和真实的多意图模式。

早期对多意图SLU的方法主要将意图检测形式化为多标签分类[15]，但这些方法难以将特定槽与其底层意图关联起来，并且难以泛化到包含多个意图的话语。这促使人们开发出更结构化的架构，明确模拟意图和槽之间的交互。基于图的方法特别有效：Qin等人[25]引入了图注意力网络来捕捉意图和槽节点之间的关系，而Ma等人[18]提出了具有选择性特征融合的层次结构。研究领域不断发展，包括图交互框架[41]、跨任务对齐机制[49]和信息论方法[51]。最近的工作还探索了提示策略[34]，以增强复杂多意图场景中的推理。

同时，人们越来越有兴趣利用大型语言模型（LLMs）进行SLU和意图理解。基于提示的框架，如GPT-SLU，将SLU重新定义为问题回答，并使用多阶段提示与ChatGPT风格的模型进行零样本意图检测和槽填充[47]。像ECLM这样的编码器-解码器风格的LLM框架将槽填充视为实体识别，并引入了逐步多意图识别的意图链公式，相对于之前的SLU基线取得了显著改进[40]。最近，MIDLM将仅解码器的LLMs改编为双向模型，用于多意图检测，联合预测意图数量和选择多意图，而无需从头开始训练新的LLM[42]。除了模型设计之外，以用户为中心的基准测试，如URS，在各种真实世界的意图下评估现成的LLM服务，表明LLMs可以具有竞争力，但在不同意图类别之间仍然存在不一致性[30]。这些工作突显了LLMs在意图理解方面的潜力，但它们通常依赖于非常大的生成模型，会产生大量的推理成本，并且通常只是通过提示或序列生成隐式地处理词元级结构和意图-槽对齐。

尽管取得了这些进展，但仍然存在一些基本挑战。许多多意图数据集（包括MixX和BlendX系列）是通过组合单意图话语构建的，因此可能仍然偏离自然发生的多意图对话的分布。这种合成构建引发了关于学习到的意图相关性生态有效性的疑问。此外，现有的基于图的SLU模型通常只聚合词元图上的第一阶邻居，这限制了它们捕捉长距离依赖关系和更高阶交互模式的能力。例如，在被标记为B-playlist、I-playlist、I-playlist的短语“latin pop rising”中，纯粹的第一阶连通性可能无法充分模拟“latin”和“rising”之间的非相邻词元之间的关系，随着话语变得更长并包含多个相互交织的意图，这种限制变得更加明显。基于LLM的方法部分缓解了数据稀缺问题并提高了灵活性，但它们通常不提供显式的、可控的词元级结构建模，并且通常需要比基于编码器的SLU模型多几个数量级的计算资源。

为了解决这些挑战，我们提出了一个两阶段的边界感知线图框架用于SLU。第一阶段，结构诱导，操作基于相邻边和依赖边的词元图：一个轻量级的预标记器生成初始的BIO概率，一个带有注意力池化的GNN计算图级摘要，一个计数头预测软意图计数分布，一个CRF在全局图表示的条件下解码词元级BIO标签。第二阶段，边界感知线图推理，细化这个结构：词元级边界分数和意图计数先验驱动自适应图重连，使用可微分的软掩码，修剪后的词元图被提升为有向线图，一个非回溯线图神经网络在线图上交替进行边到边的传播和在词元图上进行边到节点的更新。然后通过基于注意力的跨度类型划分在LGNN更新的词元状态上标记槽跨度，并使用边级注意力和自适应的每个意图阈值从LGNN更新的边状态预测多标签意图。这种设计将建模和解码顺序对齐，清晰地将SLU分解为BIO标记、意图计数、跨度类型划分和意图识别，同时通过连续的边界分数、软重连掩码和软意图计数先验保持第二阶段的可微分性。唯一不可微分的步骤是用于枚举基于BIO的槽跨度的Viterbi解码。

在单意图数据集（ATIS、SNIPS）和多意图数据集（MixATIS、MixSNIPS、BlendATIS、BlendSNIPS）上的全面评估表明，我们的框架在句子级准确性和槽填充方面达到了最先进水平，同时使用了一个紧凑的基于编码器的模型，而不是全规模的生成式LLM。

总结来说，本工作的关键贡献如下：

•

我们将联合SLU视为一个分层的、考虑计数的问题，并将输出分布分解为BIO标签、意图计数、槽类型和多标签意图，对齐了建模和解码顺序。

•

我们引入了一个边界感知的线图神经架构，首先诱导一个粗略的词元结构和意图计数先验，然后执行非回溯线图消息传递，并通过意图计数先验指导的自适应图重连来进行跨度级别的槽填充和意图识别。

•

在标准的单意图和多意图SLU基准测试上的广泛实验显示，与强大的基线和消融实验相比，我们的边界感知线图推理框架具有持续的改进，验证了其有效性和鲁棒性。

方法论

我们提出了一个用于多意图SLU的两阶段架构。第一阶段诱导一个粗略的语义结构——词元级的BIO标签和意图的数量。第二阶段通过边界感知的重连细化词元图，并在有向线图上进行非回溯消息传递，以解码跨度类型和多标签意图。该设计对齐了建模和解码顺序，通过连续的边界评分和软重连保持第二阶段的可微分性，并且在计算上保持

数据集和评估指标

我们在单意图和多意图基准测试上评估了所提出的框架。对于单意图设置，我们使用ATIS [12]和SNIPS [8]。ATIS包含带有18个意图的航空旅行查询和丰富的槽注释。SNIPS是一个语音辅助数据集，包含音乐、天气和导航等七个领域。

对于多意图SLU设置，我们采用MixATIS和MixSNIPS [25]，其中最多三个单意图话语通过连词连接在一起，同时保留槽标签。

结论

本研究提出了一个基于两阶段线图的推理框架，用于多意图SLU。所提出的模型首先进行基于交叉注意力的编码和粗略的槽预分类，以诱导词元级的BIO边界和意图计数先验。在第二阶段，我们引入了一个边界感知的图重连机制和一个非回溯线图神经网络，明确模拟意图和槽之间的更高阶依赖关系。

局限性

尽管所提出的两阶段框架在多意图基准测试上取得了显著的改进，但仍存在一些局限性。一个关键的限制是，虽然第二阶段使用了连续的边界分数和可微分的软掩码进行边界感知的重连，从而使大部分推理过程可微分，但它仍然无法完全解决离散跨度枚举带来的固有约束：槽跨度最终是从Viterbi解码的BIO序列中枚举出来的，而下游