面向部署的长篇法律文件分类:一种基于分割的分布式法律证据整合框架

时间:2026年5月18日
来源:IEEE Access

编辑推荐:

摘要:长序列模型可以提高长法律文件的分类效果。然而,它们的高计算成本限制了在注重隐私的法律环境中的实际应用,这些环境更倾向于使用本地解决方案。为了解决这一限制,本文提出了一种基于分段的框架。该框架使用Legal-BERT进行段落编码,并结合了段落重叠以及由BiGRU建模和基于注意

广告
   X   

摘要:长序列模型可以提高长法律文件的分类效果。然而,它们的高计算成本限制了在注重隐私的法律环境中的实际应用,这些环境更倾向于使用本地解决方案。为了解决这一限制,本文提出了一种基于分段的框架。该框架使用Legal-BERT进行段落编码,并结合了段落重叠以及由BiGRU建模和基于注意力的聚合组成的聚合模块。在控制泄露的ECHR数据集上的实验表明,所提出的框架达到了89.4%的精确度、82.4%的召回率和84.6的F1分数(均为宏观平均值)。结果进一步表明,聚合的价值取决于法律证据在各个段落中的分布情况。当相关证据可以在单个段落中被捕获时,局部预测倾向于提高精确度;相反,当证据分布在多个段落中时,基于BiGRU的跨段落建模对于提高召回率变得重要。仅使用基于注意力的聚合在这种设置下是不够的,只有在建模了跨段落依赖性之后才会有效。额外的结果表明,段落重叠可以提高性能,尽管过度重叠并不会带来额外的好处。这些发现突显了长法律文件分类中的一个实际权衡,即模型的有效性不仅取决于架构设计,还取决于分段和聚合策略如何支持分布式法律证据的恢复。CCBY - IEEE不是该材料的版权所有者。请通过https://creativecommons.org/licenses/by/4.0/遵循指示以获取全文文章和API文档中的规定。

第一节 引言
自动长法律文件分类吸引了越来越多的研究关注,因为法律文本通常篇幅较长、结构复杂且高度依赖上下文。早期研究探索了传统的机器学习方法[1],随后是基于神经网络的方法,如卷积架构[2]。最近的工作研究了ECHR等数据集上的法律判决预测及相关分类任务[3],最近的综述工作进一步总结了该领域的主要数据集、建模方法和研究挑战[4]。这类任务特别具有挑战性,因为法律推理很少由孤立的语句决定。司法文本的解释往往取决于上下文意义而不仅仅是单个语句[5]。此外,当引入新信息时,法律结论可能会被修改或推翻[6]。这种动态在关于冲突法律论点的研究中得到了讨论[7],而关于可反驳的法律条件的相关工作进一步表明,当考虑额外条件时,结论的适用性可能会改变[8]。
同时,法律文件通常篇幅较长、结构复杂,常常超出标准基于Transformer的模型的输入长度限制[3]。在实际的法律自然语言处理(NLP)环境中,保密性、领域适应性和部署相关限制通常是重要的考虑因素[9]、[10]。在这种情况下,可扩展性、可解释性和实现可行性成为设计面向部署的系统时的相关问题。
为了解决长法律文件的问题,可以考虑三种主要的设计策略。表1总结了它们的比较优势和局限性。
表1 长法律文件分类的设计方案比较
第一种是长序列建模,它通过稀疏注意力、循环或注意力近似等机制扩展上下文覆盖范围,例如Longformer[11]、BigBird[12]、Transformer-XL[13]和Nyströmformer[14]。尽管这些方法提高了长上下文建模的可扩展性,但在许多预训练变体中,实际部署可能仍受到有限输入限制、大量内存成本或在非常长的文档中需要分段处理的限制。
第二种是在分类之前进行文档摘要[15]。这通过减少输入长度来提高效率,但法律推理往往依赖于事实细节,这些细节在孤立来看可能微不足道,但对最终结果至关重要。因此,摘要可能会遗漏具有法律意义的信息。生成的摘要可能包含事实不一致性[16],而抽象摘要在可靠性和质量方面也存在限制[17]。此外,摘要质量会随着解码策略的不同而变化[18]。法律领域的研究还报告了生成摘要中的幻觉风险[19]。更广泛地说,类似的可靠性问题也在法律语言模型中观察到[20]。
第三种是基于分段的分类,即将文档划分为较小的单元,然后将其聚合为文档级别的预测。这个想法出现在早期的分层文档模型中[21],也扩展到了长文档Transformer架构中[22]。
与摘要相比,这种方法保留了原始内容;与长序列模型相比,它在上下文建模和计算成本之间提供了更可控的平衡,使其特别适合面向部署的环境。当考虑部署限制时,这一实际优势变得更加明显。
尽管像Longformer[11]和BigBird[12]这样的稀疏注意力长序列模型减少了标准自注意力的二次方注意力成本,但长法律文件的实际部署仍然具有挑战性。实际上,这些模型仍然在单次前向传递中处理长上下文,这可能导致高峰内存使用和输入长度限制[23]。相比之下,基于分段的方法使用固定长度的段落逐步处理文档,因此在编码后可以释放早期段落的内存。这使得基于分段的设计在面向部署和资源受限的法律环境中更加灵活。
尽管基于分段的方法具有实际吸引力,但关键的设计因素通常是启发式选择的,而不是系统分析的。在许多长文档分类流程中,窗口大小、重叠比例和聚合策略等选择在不同研究中差异很大,使得直接比较变得困难,并掩盖了预测性能、稳定性和计算效率之间的权衡[21]、[22]。这促使我们将分段和聚合视为明确的设计变量,而不是偶然的实现决策。
此外,法律理解通常需要在前向和后向两个方向上整合信息。例如,在评估是否侵犯了公平审判的权利时,一段早期文本指出申请人没有法律代表可能最初表明存在侵犯。然而,后面的文本可能澄清申请人明确放弃了律师的权利。这种依赖性表明,法律解释不能仅从孤立的局部片段中可靠地推断出来,这促使需要能够建模跨段落双向依赖性的聚合机制。这一观察进一步激发了基于分段的框架,并配备了一种能够建模跨段落法律资格的聚合机制,其中后续段落可能会限制或推翻早期段落所建议的解释。这一概念模式在图1中进行了说明。
图1. 本研究动机的示意图。长法律文件被划分为多个段落,其中一个孤立段落可能表明潜在的违规行为,但其解释可能会被后续上下文限制、细化或推翻。示例文本为了便于阅读而进行了简化,并非来自原始判决的逐字摘录。

与长文档建模挑战并行的是,标签泄露也被认为是长法律文件分类评估中的一个关键问题。法律判决通常在裁决或法律推理等部分包含明确或隐含的决策揭示线索。当这些信息包含在模型输入中时,分类器可能会利用这些人为因素,导致评估结果过于乐观,无法反映现实的预测环境[24]。为了缓解这个问题,一些研究将模型输入限制为仅包含事实描述,通常是ECHR案例中的“事实”部分[25]、[26]。虽然这种控制泄露的设置提高了评估的可靠性,但也增加了任务的难度,并对上下文建模提出了更高的要求。
在这项工作中,从面向部署的系统设计的角度重新审视了长法律文件分类。本研究并不声称提出了一种根本新的模型架构。相反,它的贡献在于展示了如何将已建立的组件组织成一个面向部署的分段框架,并系统地研究了分段和聚合选择在控制泄露的评估下如何影响性能。从这个角度来看,主要强调的是实际设计理由和受控的实证分析,而不是架构创新。与其引入一种根本新的架构,本研究探讨了如何配置分段和聚合以支持在控制泄露的评估下进行面向部署的长法律文件分类。因此,重点放在面向部署的集成和设计分析上,而不是架构新颖性本身。所提出的框架结合了段落重叠,以保持上下文连续性,同时保持可管理的输入大小。图2展示了所提出框架的概览。每个段落都由Legal-BERT[27]独立编码以获得段落级别的表示。为了建模段落内部和段落之间的依赖性,使用双重双向建模方案来捕获令牌和段落级别的上下文关系。然后将得到的段落表示传递给由BiGRU[28]建模和基于注意力的聚合组成的聚合模块。
图2. 所提出框架的简化概述。文档首先通过分段和段落级别编码进行处理,其中每个双向编码器都由Legal-BERT实例化。然后将得到的段落表示传递给由BiGRU建模和基于注意力的聚合组成的聚合模块,以进行文档级别表示的学习。符号仅用于概念说明,并在后续的方法部分中正式定义。

本工作的贡献总结如下:我们提出了一个面向部署的分段框架,用于长法律文件分类,通过将Legal-BERT编码与基于BiGRU的跨段落建模和基于注意力的聚合模块相结合。我们在控制泄露的设置下在ECHR数据集上评估了这个框架,并展示了这种基于分段的设计在实际部署限制下可以实现有竞争力的性能。我们系统地分析了聚合设计如何影响预测行为,表明当违规相关证据分布在多个段落中时,基于BiGRU的跨段落建模尤为重要,主要有助于提高召回率。我们进一步表明,在这种设置中,仅使用基于注意力的聚合是不够的,只有在跨段落建模后应用于具有上下文意识的段落表示时才会有效。

第二节 相关工作
本节从设计角度回顾了与长法律文件分类相关的工作。讨论分为五个方面:法律文本的编码基础、长文档建模策略、文档摘要、分段和聚合以及控制泄露的评估。这些方向反映了处理长法律文件时的不同设计选择,并说明了需要一个面向部署的分段框架的原因。
A. 法律文本的编码基础
早期的法律文件分类和法律判决预测方法通常依赖于传统的机器学习方法,如支持向量机和随机森林,通常结合词袋模型或手工制作的特征[1]、[29]。虽然这些方法提供了基线性能,但它们在捕捉法律文本中的复杂语义关系和长距离依赖性方面存在局限性。
随后,深度学习的进步引入了更具表现力的神经架构用于法律文本建模。Ahmad等人[30]采用了混合CNN-BiLSTM设计来捕捉局部模式和序列依赖性,而Li等人[31]提出了一个多通道注意力神经网络用于法律判决预测。这些方法比传统方法提供了更好的性能,但在处理长文档方面仍然有限。
基于Transformer的架构[32]和预训练的语言模型(如BERT[33])的引入显著推进了法律NLP的发展,这是在早期探索深度学习适应性和在大型法律语料库上训练的法律领域词嵌入之后的努力[34]。领域适应模型,如Legal-BERT[27],通过在预训练期间结合法律特定语料库进一步提高了性能。
最近的综述研究整理了人工智能和法律领域的基于Transformer的语言模型的更广泛景观。Greco等人[35]回顾了人工智能和法律领域的基于Transformer的语言模型,提供了法律NLP中编码发展的更广泛视角。Song等人[36]检验了预训练语言模型在法律自然语言处理中的有效性,并强调了实验配置的作用。
最近的工作继续探索基于Transformer的模型、领域特定适应性和用于司法决策任务的合法信息特征。Ghosh等人[37]比较了用于法律判决预测的基于Transformer的模型,并发现了编码选择和训练设置之间的显著差异。Benedetto等人[38]结合了法律实体来提高预测和解释能力。然而,尽管这些模型具有强大的表示能力,但它们仍然受到输入长度限制和计算成本的约束,特别是在长文档场景中。
在这项工作中,编码器被视为强大的表示基础,而主要关注点是如何设计分段和聚合以在实际部署限制下处理长法律文件。
B. 长文档建模策略
标准Transformer编码器受到自注意力二次方复杂性的限制,使得它们难以直接应用于长法律文件[32]。为了解决这一限制,提出了各种长序列建模方法。Transformer-XL通过循环机制扩展了有效的上下文长度[13],而像Longformer和BigBird这样的高效注意力机制引入了稀疏注意力模式,以实现更长的输入处理[11]、[12]。其他方法,包括Nyströmformer及其相关方法,通过近似注意力来降低计算复杂性[14]。最近的进展进一步改变了长序列建模的格局。像FlashAttention[39]这样的考虑输入输出的注意力方法减少了内存流量,并提高了精确注意力的实际效率。同时,像Hyena[40]这样的次二次方架构用隐式长卷积和门控机制替代了注意力。状态空间模型也成为长序列建模的一个重要方向。例如,S4[41]通过结构化状态空间来建模长距离依赖性,而Mamba[42]通过引入线性扩展的可选序列建模扩展了这一工作。这些发展大大提高了长上下文处理的可行性。然而,它们并没有完全解决本研究中考虑的部署问题。许多这些模型需要专门的实现、大规模预训练或领域特定的适应,才能可靠地应用于泄漏控制的法律判决分类。因此,这项工作并不认为分割普遍优于最近的长序列架构。相反,它研究了分割和聚合作为一种可部署的设计选择,当希望与现有的法律领域编码器(如Legal-BERT)保持兼容性时。

C. 法律文本的文档摘要
文档摘要已被探索作为长法律文档的预处理策略[15]。通过将文档压缩成更短的表示形式,摘要提高了计算效率,并使得使用标准分类器成为可能。然而,法律推理通常依赖于详细的事实信息,这些信息在孤立来看可能微不足道,但对决策至关重要。因此,摘要可能会省略法律上重要的细节。此外,最近的研究强调了与抽象摘要相关的额外风险。生成的摘要可能会表现出与源文档不符的事实不一致性或幻觉内容[16]、[17]、[18]、[19]、[20]。由于解码策略的差异,生成结果的变异性进一步引发了关于可重复性和可靠性的担忧。这些问题在法律应用中尤为重要,因为事实准确性至关重要。

D. 分割和聚合
基于分割的方法将长文档分割成较小的单元,独立编码每个单元,并聚合单元级别的表示以进行文档级别的预测[21]、[22]。早期的工作,如分层注意力网络,通过多层次聚合显式地建模文档结构[21]。更近期的方法使用分层变换器和多层次注意力机制扩展了这一想法[43],进一步改进了单元级别依赖性的建模。尽管它们很有效,但基于分割的流程通常被视为实现选择,而不是明确的设计空间。关键因素,包括分割粒度、重叠大小和聚合机制(如池化、注意力或循环建模),通常是启发式选择的。因此,它们对预测性能、上下文连续性和计算成本的影响尚未得到充分理解,特别是在受控评估环境中。最近的研究还探索了多语言和跨司法管辖区的法律NLP,包括多语言法律判决预测和跨法律系统的跨语言迁移[44]、[45]。同时,检索式或稀疏方法用于长文本处理,专注于选择有限数量的显著单元。虽然这些方向解决了跨语言泛化和高效证据选择等重要挑战,但它们与本研究的重点不同,本研究的重点是分割和聚合,以便在受控的欧洲人权法院(ECHR)环境中整合分布式证据。

E. 增强检索的法律文本方法
增强检索的方法也被用于法律判决预测。例如,Nigam等人提出了NyayaRAG,这是一个结合了事实案例描述和相关法规以及语义检索的先前案例的增强检索生成框架,以提高印度普通法系统下的预测和法律解释质量[46]。然而,这样的方法引入了超出输入文档的外部法律知识。相比之下,本研究采用了一个泄漏控制的设置,其中模型输入仅限于每个ECHR判决的“事实”部分。因此,增强检索的方法被视为一个相关但不同的方向,而本研究则专注于在给定文档内的分割和聚合。

F. 泄漏控制的评估
在长法律文档分类中的评估因司法文本中存在揭示决策的线索而变得复杂。法律判决通常在裁决或法律推理等部分包含最终决策的明确或隐含指示。当这些信息包含在模型输入中时,分类器可能会利用这些线索,导致过于乐观的性能估计[24]。先前的工作提出了将模型输入限制在事实描述中,例如ECHR案例中的“事实”部分,以缓解这个问题[25]、[26]。更一般地说,NLP研究表明,数据泄漏可能来自多个来源,包括数据集分割不当和训练数据与测试数据之间的内容重叠[24]。这些发现突显了明确定义的评估协议对于可靠性能评估的重要性。然而,在泄漏控制的设置下,任务变得更加具有挑战性,因为模型必须完全依赖事实描述而无法访问揭示决策的信息。这种设置增加了有效上下文建模的重要性,并进一步激发了精心设计分割和聚合策略的需求。

G. 总结
现有的长法律文档分类方法涉及上下文覆盖范围、信息保留、计算成本和部署可行性之间的权衡。长序列模型提高了上下文容量,但仍然计算要求高,而基于摘要的方法可能会遗漏法律上重要的细节。基于分割的方法提供了一个更实用的替代方案,但其有效性在很大程度上取决于如何跨单元整合分布式证据。在这项工作中,进一步采用了泄漏控制的设置,以实现更可靠的评估。在这种设置下,分割设计、跨单元上下文建模和聚合策略的效果变得尤为重要。这些考虑激发了本研究的工作,它将分割和聚合作为明确的设计变量进行研究,并提出了一个面向部署的长法律文档分类框架。

第三部分. 提出的方法
本研究提出了一个基于重叠分割、领域特定编码和文档级别聚合模块的面向部署的长法律文档分类框架。该框架不仅旨在解决输入长度限制问题,还支持法律文档中的跨单元上下文整合,其中后续单元可能会限制、细化或推翻早期单元的建议解释。为了保留法律上关键的信息,事实部分被分割成重叠的单元,并使用法律领域变换器进行编码。然后将这些单元表示传递给由BiGRU建模和基于注意力的聚合组成的聚合模块,用于文档级别预测。为了确保可靠的评估,只保留事实描述作为模型输入,从而排除揭示决策的线索。所提出方法的总体架构如图3所示。给定一个法律判决文档D,仅保留其事实描述Dfacts,整体预测函数表示为\(\hat{y}=f_{\theta}(Dfacts)\)(见图3)。输入文档通过事实提取、分词和分割、单元级别的Legal-BERT编码、基于BiGRU的跨单元建模和基于注意力的聚合进行处理,用于文档级别预测。其中\(f_{\theta}\)表示参数化的分类流程。在这种表述下,分割和聚合被视为统一框架内的明确设计变量。

A. 泄漏控制的输入
法律判决通常在法律推理、裁决或对最终结果的引用等部分包含明确或隐含的揭示决策的线索。如果这些部分包含在模型输入中,分类器可能会利用这些线索,导致过于乐观的性能估计[24]。为了避免这个问题,本研究将输入限制在“事实”部分,遵循之前关于泄漏控制的ECHR研究[25]、[26]。设D表示完整的判决,Dfacts表示提取的事实部分。提取过程定义为\(Dfacts = ExtractFacts(D)\)(见图3)。这种限制确保模型依赖于事实描述,而不是揭示结果的伪影。因此,性能差异可以更可靠地解释为建模设计的效果,而不是揭示决策的泄漏。

B. 分割作为一种设计维度
直观地说,这里使用分割将过长的法律文档转换为可管理的局部单元,同时引入重叠以减少重要上下文信息被分割到单元边界之外的风险。变换器编码器的输入长度限制使得直接处理长法律文档变得困难。为了在满足输入限制的同时保留潜在的重要事实细节,本研究采用了分割和聚合框架。具体来说,事实文本被分割成重叠的单元,分割被视为影响上下文连续性、冗余性和计算成本的一个明确设计变量。设L表示文档的总令牌长度,M表示单元大小,Δ表示相邻单元之间的重叠大小。第i个单元定义为\(S_i = Dfacts[p_i:q_i]\)(见图3),其中\(p_i=(i-1)(M-\Delta)\),\(q_i=\min(p_i+M,L)\),第i个单元的长度为\(q_i-p_i\)。步长由\(M-\Delta\)给出。这种表述允许将分割系统地分析为一个可控的设计维度,而不是一个固定的预处理步骤。在这种设计中,单元长度决定了每个输入单元中保留的局部信息量,而重叠控制了相邻单元之间的上下文连续性程度。较小的重叠可能会增加上下文碎片化,而较大的重叠则会引入冗余和额外的计算成本。因此,分割被视为一个直接影响上下文连续性、冗余性和计算成本的结构设计因素。如果事实文本短于一个单元,则将其视为一个单独的填充单元。对于较长的文档,在编码之前保留最后一个短单元并进行填充,以确保不丢弃任何事实内容。

C. 单元级别编码
每个单元使用Legal-BERT[27]进行独立编码,这是BERT[33]的一个领域适应版本。该编码器在令牌级别本质上执行双向上下文建模。给定一个单元\(S_i\),编码器产生上下文化后的令牌表示\(E_i = Encoder(S_i)\)(见图4)。令牌表示的维度由d表示,在本研究中设置为768。从这个序列输出中,使用与[CLS]令牌相关的上下文嵌入作为单元级别的表示:\(z_i = E_{i}^{[CLS]}\in \mathbb{R}^d\)(见图5)。这种设计为每个单元提供了固定维度的表示,同时保持了与预训练变换器的兼容性。它还允许文档表示为一系列语义丰富的单元嵌入,而无需修改底层编码器架构。这种单元级别的编码构成了所提出框架中的第一层双向建模。

D. 基于BiGRU的跨单元建模
这一阶段允许模型将每个单元不仅与其自身的内容相关联,还与其在文档中的前后内容相关联。在单元级别编码之后,文档被表示为单元嵌入的有序序列:\(Z = (z_1,z_2,\ldots,z_n) \in \mathbb{R}^n\times d\)(见图6)。由于法律叙述往往是非线性的,且对早期陈述的解释可能依赖于后续出现的信息,模型应该能够捕捉单元之间的双向依赖性。为此,序列Z通过双向门控循环单元(BiGRU)[28]进行处理。对于第i个单元,前向和后向隐藏状态分别计算为\(h_i = GRU_f(z_i), h_{i-1) \in \mathbb{R}^d\)和\(h_{i+1} = GRU_b(z_i, h_{i+1} \in \mathbb{R}^d\)(见公式)。最终得到考虑单元的上下文表示为\(h_i = [h_i; h_{i+1}] \in \mathbb{R}^{2d}\)(见图8)。这种设计引入了第二层双向建模。第一层通过Legal-BERT的双向上下文编码在每个单元内部发生,第二层通过BiGRU在单元之间发生。这两层共同构成了所提出的双重双向建模方案,作为统一捕获单元内部上下文依赖性和单元间序列关系的核心设计组件。

E. 基于注意力的聚合
这一阶段可以理解为一种加权机制,允许模型在形成文档级别决策时为不同单元分配不同的重要性级别。尽管BiGRU捕获了单元之间的上下文依赖性,但不同单元对最终分类决策的贡献并不相等。一些单元可能包含决定性的事实证据,而其他单元的信息量较少。为了模拟这种变化,在BiGRU输出上应用了注意力机制[21]。对于每个段落表示hi,注意力得分计算如下:\[u_{i}=\tanh \left ({ W_{a}h_{i}+b_{a} }\right) \tag {9}\] 其中 \(W_{a}\in\mathbb{R}^{da\times2d_{h}\) 是一个可训练的权重矩阵,\(b_{a}\in\mathbb{R}^{d_{a}}\) 是注意力层中的一个可训练的偏置向量。然后定义归一化的注意力权重为:\[a_{i}=\frac {\exp \left ({ u_{i}^{\top }u_{a} }\right)}{\sum \nolimits _{j=1}^{n} \exp \big (u_{j}^{\top }u_{a} \big)},\quad i=1,2,\ldots,n \tag {10}\] 其中 \(u_{a}\in\mathbb{R}^{d_{a}}\) 是一个可训练的上下文向量,\(n\) 表示文档中段落的总数,\(i\) 索引当前段落,\(j\) 是用于归一化的所有段落的求和索引。最终的文档表示是段落表示的加权和:\[v=\sum \limits _{i=1}^{n} {a_{i}h_{i}}\in \mathbb {R}^{2d_{h}} \tag {11}\] 该机制使模型能够赋予与预测目标更相关的段落更大的重要性。在长法律文档的背景下,这种重新加权特别有用,因为相关证据可能是稀疏的,并分布在事实叙述的多个部分中。这种基于注意力的聚合阶段在不显著增加架构复杂性的情况下改进了文档级别的表示学习。

F. 结果预测
得到的文档表示 \(v\) 被传递给一个二元分类器,以预测案件是否涉及违规。最终预测由下式给出:\[ \hat {y}=\sigma \left ({ W_{c}v+b_{c} }\right) \tag {12}\] 其中 \(W_{c}\in\mathbb{R}^{1\times2d_{h}\) 和 \(b_{c}\in\mathbb{R}\) 是可训练的分类器参数,\(\sigma(\cdot)\) 表示Sigmoid激活函数。这种公式给出了输入案件属于违规类别的概率。

IV. 实验结果
本节从设计角度评估了所提出的长法律文档分类框架。除了与代表性基线进行比较外,我们还进行了消融研究和分割分析,以检查不同的设计选择如何影响预测性能。我们还通过注意力可视化提供了定性见解。为了确保控制比较,所有实验设置都使用相同的编码器、泄漏控制协议、训练目标和优化程序,仅改变分割策略和聚合策略。所有报告的结果都是基于五次运行的平均值,以减少单次运行的偶然变化的影响。然而,本研究中没有额外报告标准差、置信区间和统计显著性测试。因此,应对小的数值差异持适当的谨慎态度。

A. 数据集
实验是在Chalkidis等人发布的公开可用的英文ECHR判决数据集上进行的[47]。该数据集包含10,098个案例,时间跨度从1959年到2018年,具有预定义的训练和测试分割。遵循原始设置,仅使用“事实”部分作为模型输入。在本研究中,长法律文档分类任务被实例化为二元违规分类,即确定给定案件是否违反了公约的特定条款。数据集中的法律文档平均长度为2,192个单词,中位长度为1,515个单词。经过WordPiece分词后,如Legal-BERT中所使用的,得到的令牌序列通常比原始单词计数更长,因为法律术语、专有名词和罕见表达可能会被分解成子词单元。ECHR判决数据集的结构如图4所示。为了避免标签泄漏,我们遵循先前的工作,仅限制输入为“事实”部分[25],[26]。该部分描述了案件的背景和情况,而不透露法院的最终结论或裁决。这种设置确保了任务反映了真实的预测条件,而不是利用决策揭示信息。

图4. 数据集组件及其在本研究中的使用。

本研究专注于ECHR,以保持法律领域、任务定义、注释方案和文档结构的可控性。这种受控设置允许更清楚地分析分割和聚合如何影响精确度-召回率权衡。添加异构基准可能会使这种比较变得模糊,因为性能差异可能反映了数据集特定的因素,而不是所提出的设计选择。

B. 实现
所有实验都在配备了AMD Ryzen 9 9900X CPU、64 GB RAM和24 GB VRAM的NVIDIA RTX 4090 GPU的桌面系统上进行了。操作系统是Ubuntu 22.04。模型使用Python 3.10和PyTorch 2.5.1实现,并使用CUDA 12.4进行GPU加速。所有实验都在受控环境中执行,以确保报告结果的可重复性。所提出的框架可以在单个GPU上训练,而不需要专门的内存优化技术,表明其具有实际的计算要求,适用于部署。在计算效率方面,所提出的框架在我们的实验设置中每小时大约处理3,000份文档。这个结果提供了基于分割的管道下的实际吞吐量指示。虽然这并不构成一个包含详细延迟或内存分析的完整部署基准,但它表明所提出的设计在现实资源限制下是计算上可行的。由于ECHR判决通常很长,超过了BERT基模型的512个令牌输入限制,因此使用滑动窗口分割策略处理文本。窗口长度设置为510个令牌,为特殊令牌[CLS]和[SEP]保留两个位置,从而得到BERT所需的512个令牌输入。设\(M\)表示窗口长度,\(\Delta\)表示相邻窗口之间的重叠大小。步长定义为\[stride=M-\Delta \tag {13}\],其中\(M=510\)。在主要设置中,重叠大小固定为100个令牌。为了分析重叠效果,\(\Delta\)在范围\(\Delta\in\{0,50,100,150,200\}\)内变化[14]。

所有模型都使用AdamW优化器进行训练,初始学习率为\(1\times10^{-5}\),丢弃率为35%,最大训练周期为10个周期。丢弃率高于标准BERT微调中常用的比率,但作为正则化设置采用它来减少基于分割的框架中的过拟合,其中Legal-BERT表示进一步通过BiGRU和基于注意力的聚合进行处理。训练期间采用了线性热身和衰减的学习率计划。Base-BERT和Legal-BERT的隐藏层大小相同,\(d=768\)。每个BiGRU方向的隐藏层大小设置为\(dh=512\),从而得到一个1024维的连接段落表示。注意力隐藏层维度\(da\)遵循BiGRU输出的维度。所有实验都使用与数据集一起发布的预定义训练和测试分割。

C. 评估指标
模型性能使用精确度、召回率和F1分数在宏观平均下进行评估。设\(TP_{c}\)表示真正例,\(FP_{c}\)表示假正例,\(FN_{c}\)表示假负例。评估指标定义如下:
\[ {\mathrm {precision}}_{c}=\frac {TP_{c}}{\left ({ TP_{c}+FP_{c} }\right)} \tag {15} \\
{\mathrm {recall}}_{c}=\frac {TP_{c}}{\left ({ TP_{c}+FN_{c} }\right)} \tag {16} \\
\mathrm {F}1_{c}=2\times \left ({ \frac {{\mathrm {precision}}_{c}\times {\mathrm {recall}}_{c}}{{\mathrm {precision}}_{c}+{\mathrm {recall}}_{c}} }\right) \tag {17} \\
\mathrm {macro-precision}=\frac {1}{C}\sum \nolimits _{c=1}^{C} {\mathrm {precision}}_{c} \tag {18} \\
\mathrm {macro-recall}=\frac {1}{C}\sum \nolimits _{c=1}^{C} {\mathrm {recall}}_{c} \tag {19} \\
\mathrm {macro-F1}=\frac {1}{C}\sum \nolimits _{c=1}^{C} {\mathrm {F}1_{c}} \tag {20}\]
对于每个类别\(c\),分别计算\(precision_{c}\)、\(recall_{c}\)和\(F1_{c}\)。然后通过平均所有类别的相应类别指标来获得宏观精确度、宏观召回率和宏观F1分数,这在类别不平衡的情况下提供了更平衡的评估。这里,\(C\)表示类别的数量,对于违规和非违规分类,\(C\)设置为2。

为了便于阅读,以下分析中提到的精确度、召回率和F1分数均指宏观平均值,即使省略了前缀“macro-”。在本研究中,精确度和召回率仍然反映了不同的预测倾向。一般来说,更高的精确度表示更少的假正例预测,而更高的召回率表示更少的漏报正例。在当前的长法律文档分类设置中,这些倾向可以直观地理解为与违规类别相关:保守的预测倾向于偏好精确度,而更积极的识别倾向于偏好召回率。F1分数进一步用于评估这两个指标之间的整体平衡。

D. 领域特定预训练的效果
为了评估领域特定预训练的影响,我们将Base-BERT和Legal-BERT作为编码器模型进行了比较。Base-BERT在通用领域的语料库(如Wikipedia和BooksCorpus [33])上进行了预训练,而Legal-BERT则在包括来自美国、英国和欧洲人权法院的文档在内的法律文本集合上进行了进一步预训练[27]。如表2所示,Legal-BERT在所有指标上均优于Base-BERT。具体来说,与Base-BERT相比,Legal-BERT将宏观精确度从84.7提高到89.4,宏观召回率从81.4提高到82.4,宏观F1从82.7提高到84.6。

表2 Base-BERT和Legal-BERT编码器的比较。尽管改进幅度适中,但结果表明领域特定预训练改善了法律语义的表示,使Legal-BERT更适合长法律文档分类任务。因此,在所有后续实验中采用Legal-BERT作为编码器模型。

E. 与基线模型的比较
所提出的框架与代表性基线进行了比较,包括BOW-SVM [1]、BiGRU-ATT [47]、HAN [21]和HIER-BERT [47]。基线结果来自[47],并且在当前研究中没有在相同的实验流程下重现。因此,软件版本、随机种子、预处理细节和超参数调整不保证完全相同。比较应理解为在数据集、任务和评估协议层面大致匹配,而不是完全控制的重新实现。因此,结果旨在说明所提出框架的竞争力,而不是建立严格的头对头优势声明。结果如表3所示。

表3 与报告基线的参考级比较。所提出的框架在宏观召回率方面表现出竞争力,表明基于分割的聚合在捕获长文档中的分布式证据方面是有效的。这一观察应被视为上下文证据,而不是来自完全统一重新实现的明确结论。在报告的结果中,完整模型获得了最高的宏观召回率和宏观F1分数。在本研究中采用的泄漏控制设置下,这种模式与所提出的框架在捕获跨段落依赖性和恢复长法律文档中的分布式违规相关证据方面的有效性一致。同时,由于基线分数是从先前工作中采用的,而不是通过完全统一的重新实现获得的,因此这种比较应谨慎解释。尽管精确度略低于HIER-BERT,但召回率较高的一个合理解释是跨段落的整合积累了多个支持违规的信号,使分类器在预测正类时更加活跃,从而在某些情况下增加了假正例。尽管错误分析很重要,但由于法律文档的长度和复杂性,本研究没有包括详细的案例级分析。相反,消融结果提供了模型行为的结构化视图。特别是,观察到的精确度-召回率模式表明,假正例可能源于跨段落积累的弱违规相关线索,而假负例可能发生在决定性证据隐含或分布在远距离段落时。这些发现提供了在结构层面上的错误行为的一般特征描述,更详细的基于案例的分析留待未来的工作。

F. 滑动窗口重叠的效果
为了研究跨段落的上下文连续性的影响,我们评估了滑动窗口分割中不同的重叠大小\(\Delta\)。结果总结在表4中。表4 滑动窗口分割中重叠大小的效果。最佳性能是在100个令牌的重叠下获得的,产生了最高的宏观F1分数(84.6)。较小的重叠可能会减少跨段落的上下文连续性,而过大的重叠会引入冗余信息并增加计算成本。这些结果表明,适度的重叠在保持上下文和效率之间提供了最佳平衡。

G. 消融研究
这项消融研究考察了不同的聚合设置如何影响长法律文档分类。如表5所示,完整模型获得了最高的宏观召回率和宏观F1分数,而没有聚合的变体获得了最高的宏观精确度。这些结果表明,不同的聚合设置可能与不同的决策行为相关,而不是产生统一的改进模式。

表5 聚合设计对分类性能的影响。为了更好地解释这一结果,图5总结了消融模式所暗示的决策行为的可能对比。结果与一种解释一致,即当缺少基于BiGRU的跨段落建模时,模型的行为更为保守,这种倾向与更高的精确度相关。相比之下,当引入基于BiGRU的跨段落建模时,模型在识别违规案例方面可能会变得更加活跃,这与提高的召回率相关。这些描述旨在作为对观察到的度量模式的合理解释,而不是直接验证的因果发现。图5. 在消融研究中不同聚合设置下观察到的精确度-召回率权衡的概念总结。双向箭头表示跨段落建模,而它们的缺失表示没有跨段落交互。在基于注意力的设置中,边界厚度代表相对注意力权重;否则,均匀厚度表示没有基于注意力的加权。

保守策略有利于精确度,因为预测的违规案例被认为是正确的,而遗漏的违规案例不会直接受到该度量的惩罚。相比之下,积极策略有利于召回率,因为目标是尽可能少地遗漏真实的违规案例。从保守预测的角度来看,一个合理的解释是,当单个段落已经包含足够决定性的法律证据时,跨段落聚合可能就不那么必要了。在这种情况下,明确的程序性提示(如拒绝辩护权)可能已经足以支持违规预测。当没有这样的决定性段落时,聚合额外的段落也可能引入弱相关或非诊断性的信号,这反过来可能会增加误报并降低精确度。从积极识别的角度来看,另一个合理的解释是,当没有单个段落单独包含足够决定性的证据时,跨段落聚合变得更加重要。在这种情况下,违规的法律依据可能从多个段落的交互中更清晰地显现出来。没有跨段落整合,案例的证据基础可能仍然支离破碎,使得模型不太可能自信地识别违规案例。这种模式的一个可能解释是,额外的非诊断信息可能会削弱决定性线索的影响[48],[49]。在当前设置中,这有助于解释为什么当违规相关证据已经在单个段落中明确时,局部预测似乎更倾向于精确度。相比之下,完整模型的更强召回率与这样的观点一致:当预测基础分布在多个段落中时,跨段落聚合变得更加有益,这也与之前使用基于事实的法律文本进行欧洲人权法院判决预测的工作[47]大体一致。

另一个发现是,当注意力与BiGRU结合使用时,似乎比单独使用时更有效。没有BiGRU时,注意力产生的召回率最低,略低于无聚合变体,而与BiGRU结合使用时则实现了最高的召回率。这种模式表明,在需要上下文判断的长文档中,基于注意力的聚合可能依赖于跨段落建模来更有效地恢复分布式证据。这一结果进一步表明,当相关证据分布在各个段落中时,仅基于注意力的聚合可能不足以进行长法律文档分类。这种解释与之前的上下文感知注意力模型大体一致,在这些模型中,注意力是应用于基于上下文的信息表示上,而不是孤立使用的[50]。在当前设置中,只有在建模了跨段落依赖性之后,注意力才显得更有信息量,因为当底层表示已经编码了段落间的上下文时,段落级别的加权可能更有意义。

为了检查所提出的框架中注意力机制的行为,我们将聚合模块中的段落级注意力权重投影回相应的令牌上进行定性检查。这种可视化仅作为模型行为的诊断视图,不应被视为法律推理的忠实解释或法律可解释性的直接证据。如图6所示,注意力图显示出混合模式。尽管一些程序相关术语获得了相对较高的权重,但大量注意力也被分配给了常见的功能词和其他低内容令牌。这表明注意力权重可能捕捉到了与预测相关的部分信号,但并不总是与法律上有意义的证据一致。因此,不应将这种可视化视为忠实的解释机制,也不应将其视为模型已经识别出人类可理解的法律可解释性的证据。图6. 代表性案例的投影注意力权重可视化。更深的红色表示更高的投影注意力权重。

这一观察与定量结果一致。虽然注意力在与BiGRU结合使用时可以提高性能,但单独使用时表现较差。即使在完整模型中,注意力分布也只部分与人类推理对齐。这些发现表明,基于注意力的聚合主要作为对上下文化表示的重新加权机制来贡献于预测,而不是作为模型决策过程的忠实解释。特别是在法律AI环境中,这样的定性可视化应谨慎解释,不应作为法律可解释性的独立证据。这些发现也与Jain和Wallace[51]的观点一致,他们认为注意力权重不一定对应于真正的特征重要性。因此,在本研究中,注意力可视化仅用作检查模型行为的定性诊断工具,而不是作为确定性的解释机制。它被包括进来是为了支持定性模型检查,而不是为了证明模型提供了忠实或基于法律的可解释性。

第五节 结论

本文提出了一种基于分割框架的长法律文档分类的部署导向研究,该框架集成了Legal-BERT编码、基于BiGRU的跨段落建模和基于注意力的聚合。这项工作的贡献不在于引入了一种全新的架构,而在于实际整合了已建立的组件,并系统地分析了分割和聚合选择如何在泄漏控制评估下影响性能。与依赖计算成本高昂的长序列模型不同,所提出的设计采用了一种基于分割的策略,这对于需要本地部署的隐私敏感法律环境更为实用。实验结果表明,在泄漏控制设置下,完整模型在欧洲人权法院数据集上实现了89.4%的宏观精确度、82.4%的宏观召回率和84.6%的宏观F1分数。与报告的基线相比,进一步提供了竞争力的上下文证据,尽管这些结果应谨慎解释,因为基线模型并未在当前研究中完全统一的实验流程下重新实现。同时,消融研究揭示了聚合的价值并非在所有情况下都是一致的。无聚合变体将Legal-BERT编码与均值池化结合使用,已经产生了相当强的性能,所有评估指标都超过了80%。此外,尽管段落重叠可以提高性能,但过度重叠并不会带来进一步的收益。更重要的是,消融结果揭示了聚合设计中的战略权衡。在没有基于BiGRU的跨段落建模的情况下,模型倾向于采用更为保守的决策模式,这与更高的精确度相关。单独使用注意力并不能显著改变这种趋势。相比之下,当引入基于BiGRU的建模并与基于注意力的聚合结合时,模型在识别违规案例方面变得更加活跃,这与更高的召回率相关。这些发现表明,当决策已经可以通过决定性的局部线索支持时,聚合并不是最有益的,而当违规相关意义必须从文档中的分布式证据中构建时,聚合才最为有益。结果进一步表明,单独使用注意力对于此目的来说是不够的。当不使用BiGRU时,注意力产生的宏观召回率低于无聚合设置。只有当BiGRU首先对段落间的双向依赖性进行建模后,其贡献才变得有效,使得注意力能够对上下文感知的段落表示进行加权,而不仅仅是孤立的局部线索。

尽管所提出的框架具有实际优势,但仍应承认几个限制。首先,该方法仍然对分割设计选择敏感,包括窗口长度和重叠大小,这些因素会影响上下文连续性、冗余性和计算成本。其次,尽管跨段落建模改善了分布式证据的恢复,但在相关信息分布在许多段落中时,非常长的依赖性可能仍然只能部分地在基于分割的流程中被捕获。因此,所提出的方法应被视为长法律文档分类的部署导向设计权衡,而不是解决所有长上下文建模挑战的完整方案。从实际角度来看,所提出的框架在单GPU设置下支持计算可行性,并为隐私敏感和资源受限的法律环境提供了部署导向的替代方案。同时,其扩展到更大数据集的能力及其转移到其他法律领域的能力应在未来的工作中进一步研究。总体而言,这项研究表明,有效的长法律文档分类不仅取决于编码器骨干,还取决于在现实评估约束下如何设计分割和聚合。与其提出一种全新的架构,这项工作贡献了一个部署导向的框架和实证分析,阐明了何时局部证据足够,何时需要跨段落建模,以及何时基于注意力的聚合变得有效。这些发现为部署导向的法律文档分类提供了实际指导,并强调了共同设计分割、跨段落交互和基于注意力的聚合的重要性,以更好地反映法律文档的推理结构。

数据可用性声明

本研究中使用的数据集可以从其原始来源公开获取。

生物通微信公众号
微信
新浪微博


生物通 版权所有