以任务为导向的对话系统(TODs)在现代人机交互中变得越来越重要,使用户能够通过自然语言对话实现特定目标。这些系统严重依赖于SLU,SLU充当将用户话语转换为下游组件可以处理的结构化语义表示的桥梁。
SLU通常包括两个基本子任务:意图检测和槽填充。意图检测将用户话语分类为一个或多个意图类别,而槽填充则识别和标记话语中的语义成分[1]。更广泛地说,意图驱动的决策机制和意图条件动态的可预测性也在网络经济游戏、人口级遗憾动态以及标记Petri网的可预测性验证中进行了研究[7]、[14]、[33]。如图1所示(该图来自MixSNIPS数据集[25]),一个话语可能包含多个意图,例如“AddToPlaylist”用于“ramy ayach on latin pop rising”和“SearchScreenEvent”用于“find the schedule for the kentuckians”。槽填充使用BIO标记方案为每个词元标注其语义角色,例如“ramy ayach”的B-artist、I-artist。我们将槽填充视为在BIO定义的跨度上进行跨度级别的槽类型划分。
SLU研究的演变可以追溯到1990年的开创性ATIS数据集[12],随后的基准测试如SNIPS[8]显著提高了单意图场景的性能。由于现实世界中的对话通常涉及多个同时存在的意图,研究重点已经转移到了多意图基准测试,如MixATIS和MixSNIPS[25]。最近,BlendX[43]引入了包括BlendATIS和BlendSNIPS在内的改进的多意图数据集,这些数据集使用基于规则的启发式方法和生成模型从单意图语料库中生成“混合”话语,产生了比原始MixX系列更加多样和真实的多意图模式。
早期对多意图SLU的方法主要将意图检测形式化为多标签分类[15],但这些方法难以将特定槽与其底层意图关联起来,并且难以泛化到包含多个意图的话语。这促使人们开发出更结构化的架构,明确模拟意图和槽之间的交互。基于图的方法特别有效:Qin等人[25]引入了图注意力网络来捕捉意图和槽节点之间的关系,而Ma等人[18]提出了具有选择性特征融合的层次结构。研究领域不断发展,包括图交互框架[41]、跨任务对齐机制[49]和信息论方法[51]。最近的工作还探索了提示策略[34],以增强复杂多意图场景中的推理。
同时,人们越来越有兴趣利用大型语言模型(LLMs)进行SLU和意图理解。基于提示的框架,如GPT-SLU,将SLU重新定义为问题回答,并使用多阶段提示与ChatGPT风格的模型进行零样本意图检测和槽填充[47]。像ECLM这样的编码器-解码器风格的LLM框架将槽填充视为实体识别,并引入了逐步多意图识别的意图链公式,相对于之前的SLU基线取得了显著改进[40]。最近,MIDLM将仅解码器的LLMs改编为双向模型,用于多意图检测,联合预测意图数量和选择多意图,而无需从头开始训练新的LLM[42]。除了模型设计之外,以用户为中心的基准测试,如URS,在各种真实世界的意图下评估现成的LLM服务,表明LLMs可以具有竞争力,但在不同意图类别之间仍然存在不一致性[30]。这些工作突显了LLMs在意图理解方面的潜力,但它们通常依赖于非常大的生成模型,会产生大量的推理成本,并且通常只是通过提示或序列生成隐式地处理词元级结构和意图-槽对齐。
尽管取得了这些进展,但仍然存在一些基本挑战。许多多意图数据集(包括MixX和BlendX系列)是通过组合单意图话语构建的,因此可能仍然偏离自然发生的多意图对话的分布。这种合成构建引发了关于学习到的意图相关性生态有效性的疑问。此外,现有的基于图的SLU模型通常只聚合词元图上的第一阶邻居,这限制了它们捕捉长距离依赖关系和更高阶交互模式的能力。例如,在被标记为B-playlist、I-playlist、I-playlist的短语“latin pop rising”中,纯粹的第一阶连通性可能无法充分模拟“latin”和“rising”之间的非相邻词元之间的关系,随着话语变得更长并包含多个相互交织的意图,这种限制变得更加明显。基于LLM的方法部分缓解了数据稀缺问题并提高了灵活性,但它们通常不提供显式的、可控的词元级结构建模,并且通常需要比基于编码器的SLU模型多几个数量级的计算资源。
为了解决这些挑战,我们提出了一个两阶段的边界感知线图框架用于SLU。第一阶段,结构诱导,操作基于相邻边和依赖边的词元图:一个轻量级的预标记器生成初始的BIO概率,一个带有注意力池化的GNN计算图级摘要,一个计数头预测软意图计数分布,一个CRF在全局图表示的条件下解码词元级BIO标签。第二阶段,边界感知线图推理,细化这个结构:词元级边界分数和意图计数先验驱动自适应图重连,使用可微分的软掩码,修剪后的词元图被提升为有向线图,一个非回溯线图神经网络在线图上交替进行边到边的传播和在词元图上进行边到节点的更新。然后通过基于注意力的跨度类型划分在LGNN更新的词元状态上标记槽跨度,并使用边级注意力和自适应的每个意图阈值从LGNN更新的边状态预测多标签意图。这种设计将建模和解码顺序对齐,清晰地将SLU分解为BIO标记、意图计数、跨度类型划分和意图识别,同时通过连续的边界分数、软重连掩码和软意图计数先验保持第二阶段的可微分性。唯一不可微分的步骤是用于枚举基于BIO的槽跨度的Viterbi解码。
在单意图数据集(ATIS、SNIPS)和多意图数据集(MixATIS、MixSNIPS、BlendATIS、BlendSNIPS)上的全面评估表明,我们的框架在句子级准确性和槽填充方面达到了最先进水平,同时使用了一个紧凑的基于编码器的模型,而不是全规模的生成式LLM。
总结来说,本工作的关键贡献如下:
•我们将联合SLU视为一个分层的、考虑计数的问题,并将输出分布分解为BIO标签、意图计数、槽类型和多标签意图,对齐了建模和解码顺序。
•我们引入了一个边界感知的线图神经架构,首先诱导一个粗略的词元结构和意图计数先验,然后执行非回溯线图消息传递,并通过意图计数先验指导的自适应图重连来进行跨度级别的槽填充和意图识别。
•在标准的单意图和多意图SLU基准测试上的广泛实验显示,与强大的基线和消融实验相比,我们的边界感知线图推理框架具有持续的改进,验证了其有效性和鲁棒性。