命名实体识别(NER)是一项专注于从句子中识别和分类具有特定语义意义的实体的任务。作为许多任务的基础组件[1]、[22]、[41],它受到了广泛关注并进行了大量研究。传统的命名实体识别方法通常将NER任务转换为序列标注任务,通过为每个单词分配一个独特的标签来提取实体。尽管这种方法在平面NER上取得了显著的成功,但它往往无法有效处理嵌套实体[9]。实体嵌套是自然语言处理中的常见现象,其特征是结构复杂且嵌套层次不规则。由于序列标注方法只能为相同的词汇条目分配一个标签,这些方法往往无法处理嵌套实体。
嵌套实体的复杂结构对NER提出了重大挑战。因此,近几十年来,人们投入了大量精力研究嵌套NER,这些方法通常可以分为四种关键类型:序列到序列(Seq2Seq)方法[9]、[34]、基于超图的方法[10]、[19]、[33]、基于大型语言模型(LLM)的方法[17]、[36]以及基于跨度的方法[25]、[29]。
Seq2Seq方法通常通过基于输入序列的编码器-解码器架构直接生成实体。尽管这些方法有其优点,但它们可能会受到自回归解码效率低下和暴露偏差的影响。基于超图的方法通过构建超图并使用神经网络进行提取来识别嵌套实体。基于LLM的方法通过利用大型语言模型的上下文理解和生成能力来识别命名实体。尽管这些方法引起了广泛兴趣,但它们的性能可能会受到数据稀缺和高计算需求的限制。基于跨度的方法将实体识别定义为跨度分类任务。它们通常结合所有可能实体的起始边界和结束边界来生成跨度集并进行分类。为了减少跨度之间的歧义并提高这种方法的鲁棒性,最近的研究越来越多地采用对比学习来精炼嵌套NER的跨度表示。然而,由于句子中的不同实体共享相同的文本特征和语义依赖关系,模糊的边界信息以及嵌套结构的固有复杂性往往会在一定程度上削弱对比学习的优势。为了解决这个问题,我们提出了一种两阶段的对比学习方法,该方法包括两个模块:一个对边界敏感的对比学习模块和一个对实体类型敏感的对比学习模块。
对于对边界敏感的对比学习模块,边界信息的准确性从根本上决定了候选跨度的质量。然而,如图1所示,句子中边界词和非边界词之间的极端类别不平衡带来了重大挑战。这种不平衡可能导致模型过度拟合多数类(非边界词),最终改变决策边界[13]。因此,我们提出在边界检测任务中引入对比学习,使得属于实体边界的词在向量空间中更接近,而非边界词则被推开,如图2所示。此外,我们设计了一个包含标签分类器和边界分类器的检索增强推理模块来缓解决策边界偏移问题。
对于对实体类型敏感的对比学习模块,我们利用对边界敏感的对比学习模块生成的精炼候选跨度进行句子级别的跨度分类。这是通过在候选跨度的两侧插入位置注意力线索[4]来实现的。考虑到该方法生成的一些负面跨度文本在语义上与正确跨度文本相似,这可能导致负面实体和正确实体之间的高语义重叠,如图3所示。因此,我们设计了四种专门的损失函数来捕捉不同类别候选实体之间的潜在结构关系。总体而言,我们总结了我们方法的主要贡献如下:
•提出了一种新颖的多目标学习框架,它可以同时检测实体边界和识别实体类别。据我们所知,这是首次利用对比学习来识别候选实体边界的工作,充分利用了边界词的内在语义显著性。
•在精炼的候选跨度基础上,我们设计了四种专门的损失函数来减少候选实体跨度之间的高语义重叠,这在保持嵌入空间中的结构依赖性的同时增强了嵌套实体的区分学习能力。
•我们的模型在三个嵌套NER数据集上取得了最先进(SOTA)的性能,并在两个平面NER数据集上取得了有竞争力的性能,这证明了我们提出方法的有效性和可行性。此外,详细的消融实验进一步验证了每个组件的价值。
本文的其余部分结构如下。第2节总结了相关工作。第3节详细介绍了我们提出的模型。第4节对该模型进行了评估,实验表明了我们的模型在嵌套NER上的有效性。第5节给出了我们的结论和未来工作。