一种用于嵌套命名实体识别的两阶段对比学习方法

时间:2026年3月19日
来源:Neurocomputing

编辑推荐:

本文提出一种两阶段对比学习方法用于嵌套实体识别,首先通过边界敏感对比学习解决实体边界模糊问题,再通过实体类型意识对比学习解决语义重叠问题。实验表明该方法在ACE2004/05和GENIA等嵌套数据集上达到最优性能,并在平铺数据集上表现优异。

广告
   X   

Jingliang Hu|Jintao Fan|Yanping Chen|Ruizhang Huang|Yongbin Qin
教育部文本计算与认知智能工程研究中心,贵州大学,贵阳,550025,中国贵州

摘要

命名实体识别(NER)是自然语言处理中的核心任务,它从非结构化文本数据中提取结构化实体信息。在NER中,实体通常通过其起始和结束边界来表示。现有的基于对比学习的嵌套NER方法通常会在嵌入空间中最大化实体表示与其对应类别之间的相似性。然而,由于句子中的不同实体共享相同的文本特征和语义依赖关系,模糊的边界信息以及嵌套结构的复杂性往往会削弱对比学习的优势。在本文中,我们提出了一种两阶段的对比学习方法来解决这个问题。具体来说,我们的框架包括一个对边界敏感的对比学习模块和一个对实体类型敏感的对比学习模块。对边界敏感的对比学习模块首先将实体边界检测视为一个二元分类问题。通过对比学习,利用边界词的更细粒度以及较低的模糊性,该模块生成具有精确边界的高质量候选实体跨度。在这些精炼的跨度基础上,对实体类型敏感的对比学习模块通过插入位置注意力线索来增强每个候选跨度,然后设计异构对比函数进行句子级别的跨度分类,从而识别具有复杂结构的嵌套实体。我们在五个广泛使用的公共数据集上进行了广泛的评估实验。结果表明,我们的方法在嵌套NER上显著优于现有方法,并在平面NER上也取得了有竞争力的性能,这验证了我们两阶段对比学习框架的有效性。

引言

命名实体识别(NER)是一项专注于从句子中识别和分类具有特定语义意义的实体的任务。作为许多任务的基础组件[1]、[22]、[41],它受到了广泛关注并进行了大量研究。传统的命名实体识别方法通常将NER任务转换为序列标注任务,通过为每个单词分配一个独特的标签来提取实体。尽管这种方法在平面NER上取得了显著的成功,但它往往无法有效处理嵌套实体[9]。实体嵌套是自然语言处理中的常见现象,其特征是结构复杂且嵌套层次不规则。由于序列标注方法只能为相同的词汇条目分配一个标签,这些方法往往无法处理嵌套实体。
嵌套实体的复杂结构对NER提出了重大挑战。因此,近几十年来,人们投入了大量精力研究嵌套NER,这些方法通常可以分为四种关键类型:序列到序列(Seq2Seq)方法[9]、[34]、基于超图的方法[10]、[19]、[33]、基于大型语言模型(LLM)的方法[17]、[36]以及基于跨度的方法[25]、[29]。
Seq2Seq方法通常通过基于输入序列的编码器-解码器架构直接生成实体。尽管这些方法有其优点,但它们可能会受到自回归解码效率低下和暴露偏差的影响。基于超图的方法通过构建超图并使用神经网络进行提取来识别嵌套实体。基于LLM的方法通过利用大型语言模型的上下文理解和生成能力来识别命名实体。尽管这些方法引起了广泛兴趣,但它们的性能可能会受到数据稀缺和高计算需求的限制。基于跨度的方法将实体识别定义为跨度分类任务。它们通常结合所有可能实体的起始边界和结束边界来生成跨度集并进行分类。为了减少跨度之间的歧义并提高这种方法的鲁棒性,最近的研究越来越多地采用对比学习来精炼嵌套NER的跨度表示。然而,由于句子中的不同实体共享相同的文本特征和语义依赖关系,模糊的边界信息以及嵌套结构的固有复杂性往往会在一定程度上削弱对比学习的优势。为了解决这个问题,我们提出了一种两阶段的对比学习方法,该方法包括两个模块:一个对边界敏感的对比学习模块和一个对实体类型敏感的对比学习模块。
对于对边界敏感的对比学习模块,边界信息的准确性从根本上决定了候选跨度的质量。然而,如图1所示,句子中边界词和非边界词之间的极端类别不平衡带来了重大挑战。这种不平衡可能导致模型过度拟合多数类(非边界词),最终改变决策边界[13]。因此,我们提出在边界检测任务中引入对比学习,使得属于实体边界的词在向量空间中更接近,而非边界词则被推开,如图2所示。此外,我们设计了一个包含标签分类器和边界分类器的检索增强推理模块来缓解决策边界偏移问题。
对于对实体类型敏感的对比学习模块,我们利用对边界敏感的对比学习模块生成的精炼候选跨度进行句子级别的跨度分类。这是通过在候选跨度的两侧插入位置注意力线索[4]来实现的。考虑到该方法生成的一些负面跨度文本在语义上与正确跨度文本相似,这可能导致负面实体和正确实体之间的高语义重叠,如图3所示。因此,我们设计了四种专门的损失函数来捕捉不同类别候选实体之间的潜在结构关系。总体而言,我们总结了我们方法的主要贡献如下:
  • 提出了一种新颖的多目标学习框架,它可以同时检测实体边界和识别实体类别。据我们所知,这是首次利用对比学习来识别候选实体边界的工作,充分利用了边界词的内在语义显著性。
  • 在精炼的候选跨度基础上,我们设计了四种专门的损失函数来减少候选实体跨度之间的高语义重叠,这在保持嵌入空间中的结构依赖性的同时增强了嵌套实体的区分学习能力。
  • 我们的模型在三个嵌套NER数据集上取得了最先进(SOTA)的性能,并在两个平面NER数据集上取得了有竞争力的性能,这证明了我们提出方法的有效性和可行性。此外,详细的消融实验进一步验证了每个组件的价值。
  • 本文的其余部分结构如下。第2节总结了相关工作。第3节详细介绍了我们提出的模型。第4节对该模型进行了评估,实验表明了我们的模型在嵌套NER上的有效性。第5节给出了我们的结论和未来工作。

    章节片段

    嵌套命名实体识别

    近年来,深度学习方法在嵌套命名实体识别任务中取得了显著的成功。这些方法可以分为四种范式:Seq2Seq、基于超图的方法、基于LLM的方法和基于跨度的方法。
    在Seq2Seq模型中,通常使用端到端模型来生成实体识别结果。例如,Ju等人[9]提出了一种分层级联框架,其中根据嵌套实体的层次结构依次应用平面NER模型,从而

    方法论

    本节详细介绍了我们提出的模型,如图4所示。该框架包括一个对边界敏感的对比学习(CL)模块和一个对实体类型敏感的对比学习(CL)模块。对边界敏感的CL模块包括一个边界分类器和一个边界组装组件。对实体类型敏感的CL模块包括一个注意力线索提出机制和一个跨度文本分类器。在描述具体方法之前,先简要概述一下该模型的工作原理

    数据集

    为了评估所提出的模型,我们在三个公开的嵌套NER数据集上进行了实验:ACE2004 [21]、ACE2005 [32] 和 GENIA [14]。此外,为了展示我们模型的可扩展性,我们还在两个平面NER数据集上进行了实验:Resume-zh [43] 和 CoNLL2003 [24]。表1和表2展示了这些数据集的详细统计信息。
    ACE2004ACE2005。这两个ACE数据集来自新闻报道、广播和日志。它们被标注了七个实体类别,分别是

    结论

    本文提出了一种新颖的两阶段对比学习方法,用于解决现有模型的局限性,特别是它们在NER中忽视了边界特定优势的问题。我们提出的模型包括一个对边界敏感的对比学习模块和一个对实体类型敏感的对比学习模块。在对边界敏感的对比学习模块中,我们首先利用边界词的细粒度和低模糊性来结合对比学习,从而

    CRediT作者贡献声明

    Jingliang Hu:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。Jintao Fan:可视化、软件、方法论、数据整理、概念化。Yanping Chen:撰写——审阅与编辑、监督、资金获取、概念化。Ruizhang Huang:撰写——审阅与编辑、监督、资金获取。Yongbin Qin:监督、资源获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
    Jingliang Hu 目前在中国贵州大学攻读硕士学位。他目前的研究兴趣在于自然语言处理和信息提取领域。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有