语义角色标注(SRL)是一项核心的NLP任务,它通过谓词及其语义论元提取谓词-论元结构(PAS)来表示事件。在生物医学领域,理解PAS对于揭示生物实体之间的关系和支持多个下游任务至关重要[1]、[2]。句法知识,特别是依存关系和成分关系特征,在提高SRL方面已被广泛证实[3]、[4],这促使人们开发出将此类特征整合到其表示中的基于句法的SRL模型[5]、[6]。
然而,基于句法的SRL模型仍然不够透明,尤其是在生物医学等高风险领域,这引发了关于可解释性的担忧。了解句法特征如何引导SRL模型得出其预测结果对于确保安全性、信任度和合规性至关重要[7]、[8]。当前的SRL文献未能回答一个关键且及时的问题:我们能否量化依存关系和成分关系特征对每个SRL预测的实际影响?之前的可解释性研究主要集中在确认模型中是否编码了句法信息[9]、[10]、[11],但它们没有测量其预测影响。此外,尽管之前的探究工作主要针对单个词元的表示[7]、[9]、[10],并且在其他背景下也存在关系或边式探究,但对与SRL相关的词间句法关系的系统探究仍然有限。
在这项工作中,我们通过将关系探究技术适应到SRL背景中来研究生物医学SRL模型如何编码句法信息[9]。我们不是探究单个词元的属性,而是研究BioBERT表示如何捕捉与谓词-论元结构直接相关的词对之间的句法关系。然后,我们量化了这些词间句法关系在每个SRL预测中的重要性。这项工作旨在回答两个关键研究问题:
(i)一个SRL模型能否编码与每个谓词及其论元相关的词间句法关系(即依存关系和成分关系)?
(ii)模型在做出预测时如何有效地利用这些句法关系?
为了回答(i),我们提出了一个用于SRL的词对探究模型,使我们能够直接检查这些句法关系是否被相关词对的表示所捕获(第4.2节)。这通过将重点从孤立的词元级别属性转移到关系句法上,推进了单词探究方法。
为了解决(ii),我们引入了一种扰动策略,该策略选择性地移除句法关系,而不掩盖或删除相关的词元,从而克服了基于词的方法经常导致的语义损失和解释忠实度降低的问题(第4.3节)。然后,我们提出了两种新的重要性度量方法:关系效应和关系效用,分别估计每个句法关系对论元范围包含和预测正确性的贡献。关系效用尤其具有启发性和诊断性,因为XAI的主要目标是评估可信度并指导模型调试。这两个目标都依赖于理解每个特征在多大程度上增强了或损害了模型预测,从而揭示模型依赖于的是有帮助的特征还是有害的特征。据我们所知,我们的工作是第一个在NLP中明确量化句法特征重要性的XAI方法。
至关重要的是,评估解释的忠实度仍然是X-NLP中的一个核心挑战。大多数现有方法依赖于人工标注的判断数据或预定义的真实性理由,这些数据本质上是主观的,并且通常没有模型内部推理的依据[12]。这限制了它们评估解释是否真正反映了模型决策过程的能力。为了解决这个问题,我们引入了一种独特的模型内在评估方法来评估解释质量(第5.3节)。我们不是依赖外部注释,而是衡量我们的解释与SRL模型的实际预测行为的一致性。这种方法提供了一种原则性、无判断且可复制的评估解释忠实度的方法。
此外,为了对我们的解释框架进行受控评估,我们通过模型合并构建了一个基于句法的SRL模型,作为评估句法特征重要性的测试平台。与现有的基于句法的SRL方法不同,我们的模型合并技术既不需要标注句法的训练数据,也不需要运行时句法解析(第4.1节)。实验结果表明,我们的基于句法的SRL模型在生物医学SRL任务上取得了具有竞争力的性能,同时所需的处理时间明显少于最近的基于句法的替代方法。
总之,我们的贡献包括:
我们通过在对BioBERT词对进行轻量级分类器训练,将关系探究适应到SRL中,从而能够探究生物医学文本中与谓词-论元结构相关的句法关系。
一个事后解释框架,使用原则性的扰动和新的重要性度量方法来量化句法特征对SRL预测正确性的贡献。
一种模型内在的方法来评估解释的忠实度,通过将解释质量与模型的实际预测行为对齐来绕过判断数据。
一个通过模型合并实现的基于句法的SRL模型,能够在不需要标注句法的训练数据或运行时句法解析的情况下实现句法整合。
本文的其余部分组织如下:第2节提供了关于X-NLP和基于句法的SRL的背景信息。第3节回顾了相关工作,指出了关键局限性,并概述了我们提出的方法。第4节详细介绍了我们的方法论,第5节进行了实验评估和结果展示。最后,第6节总结了本文并概述了未来的研究方向。