第二节 相关工作 本节从设计角度回顾了与长法律文件分类相关的工作。讨论分为五个方面:法律文本的编码基础、长文档建模策略、文档摘要、分段和聚合以及控制泄露的评估。这些方向反映了处理长法律文件时的不同设计选择,并说明了需要一个面向部署的分段框架的原因。 A. 法律文本的编码基础 早期的法律文件分类和法律判决预测方法通常依赖于传统的机器学习方法,如支持向量机和随机森林,通常结合词袋模型或手工制作的特征[1]、[29]。虽然这些方法提供了基线性能,但它们在捕捉法律文本中的复杂语义关系和长距离依赖性方面存在局限性。 随后,深度学习的进步引入了更具表现力的神经架构用于法律文本建模。Ahmad等人[30]采用了混合CNN-BiLSTM设计来捕捉局部模式和序列依赖性,而Li等人[31]提出了一个多通道注意力神经网络用于法律判决预测。这些方法比传统方法提供了更好的性能,但在处理长文档方面仍然有限。 基于Transformer的架构[32]和预训练的语言模型(如BERT[33])的引入显著推进了法律NLP的发展,这是在早期探索深度学习适应性和在大型法律语料库上训练的法律领域词嵌入之后的努力[34]。领域适应模型,如Legal-BERT[27],通过在预训练期间结合法律特定语料库进一步提高了性能。 最近的综述研究整理了人工智能和法律领域的基于Transformer的语言模型的更广泛景观。Greco等人[35]回顾了人工智能和法律领域的基于Transformer的语言模型,提供了法律NLP中编码发展的更广泛视角。Song等人[36]检验了预训练语言模型在法律自然语言处理中的有效性,并强调了实验配置的作用。 最近的工作继续探索基于Transformer的模型、领域特定适应性和用于司法决策任务的合法信息特征。Ghosh等人[37]比较了用于法律判决预测的基于Transformer的模型,并发现了编码选择和训练设置之间的显著差异。Benedetto等人[38]结合了法律实体来提高预测和解释能力。然而,尽管这些模型具有强大的表示能力,但它们仍然受到输入长度限制和计算成本的约束,特别是在长文档场景中。 在这项工作中,编码器被视为强大的表示基础,而主要关注点是如何设计分段和聚合以在实际部署限制下处理长法律文件。 B. 长文档建模策略 标准Transformer编码器受到自注意力二次方复杂性的限制,使得它们难以直接应用于长法律文件[32]。为了解决这一限制,提出了各种长序列建模方法。Transformer-XL通过循环机制扩展了有效的上下文长度[13],而像Longformer和BigBird这样的高效注意力机制引入了稀疏注意力模式,以实现更长的输入处理[11]、[12]。其他方法,包括Nyströmformer及其相关方法,通过近似注意力来降低计算复杂性[14]。最近的进展进一步改变了长序列建模的格局。像FlashAttention[39]这样的考虑输入输出的注意力方法减少了内存流量,并提高了精确注意力的实际效率。同时,像Hyena[40]这样的次二次方架构用隐式长卷积和门控机制替代了注意力。状态空间模型也成为长序列建模的一个重要方向。例如,S4[41]通过结构化状态空间来建模长距离依赖性,而Mamba[42]通过引入线性扩展的可选序列建模扩展了这一工作。这些发展大大提高了长上下文处理的可行性。然而,它们并没有完全解决本研究中考虑的部署问题。许多这些模型需要专门的实现、大规模预训练或领域特定的适应,才能可靠地应用于泄漏控制的法律判决分类。因此,这项工作并不认为分割普遍优于最近的长序列架构。相反,它研究了分割和聚合作为一种可部署的设计选择,当希望与现有的法律领域编码器(如Legal-BERT)保持兼容性时。
C. 法律文本的文档摘要 文档摘要已被探索作为长法律文档的预处理策略[15]。通过将文档压缩成更短的表示形式,摘要提高了计算效率,并使得使用标准分类器成为可能。然而,法律推理通常依赖于详细的事实信息,这些信息在孤立来看可能微不足道,但对决策至关重要。因此,摘要可能会省略法律上重要的细节。此外,最近的研究强调了与抽象摘要相关的额外风险。生成的摘要可能会表现出与源文档不符的事实不一致性或幻觉内容[16]、[17]、[18]、[19]、[20]。由于解码策略的差异,生成结果的变异性进一步引发了关于可重复性和可靠性的担忧。这些问题在法律应用中尤为重要,因为事实准确性至关重要。
D. 分割和聚合 基于分割的方法将长文档分割成较小的单元,独立编码每个单元,并聚合单元级别的表示以进行文档级别的预测[21]、[22]。早期的工作,如分层注意力网络,通过多层次聚合显式地建模文档结构[21]。更近期的方法使用分层变换器和多层次注意力机制扩展了这一想法[43],进一步改进了单元级别依赖性的建模。尽管它们很有效,但基于分割的流程通常被视为实现选择,而不是明确的设计空间。关键因素,包括分割粒度、重叠大小和聚合机制(如池化、注意力或循环建模),通常是启发式选择的。因此,它们对预测性能、上下文连续性和计算成本的影响尚未得到充分理解,特别是在受控评估环境中。最近的研究还探索了多语言和跨司法管辖区的法律NLP,包括多语言法律判决预测和跨法律系统的跨语言迁移[44]、[45]。同时,检索式或稀疏方法用于长文本处理,专注于选择有限数量的显著单元。虽然这些方向解决了跨语言泛化和高效证据选择等重要挑战,但它们与本研究的重点不同,本研究的重点是分割和聚合,以便在受控的欧洲人权法院(ECHR)环境中整合分布式证据。
E. 增强检索的法律文本方法 增强检索的方法也被用于法律判决预测。例如,Nigam等人提出了NyayaRAG,这是一个结合了事实案例描述和相关法规以及语义检索的先前案例的增强检索生成框架,以提高印度普通法系统下的预测和法律解释质量[46]。然而,这样的方法引入了超出输入文档的外部法律知识。相比之下,本研究采用了一个泄漏控制的设置,其中模型输入仅限于每个ECHR判决的“事实”部分。因此,增强检索的方法被视为一个相关但不同的方向,而本研究则专注于在给定文档内的分割和聚合。
F. 泄漏控制的评估 在长法律文档分类中的评估因司法文本中存在揭示决策的线索而变得复杂。法律判决通常在裁决或法律推理等部分包含最终决策的明确或隐含指示。当这些信息包含在模型输入中时,分类器可能会利用这些线索,导致过于乐观的性能估计[24]。先前的工作提出了将模型输入限制在事实描述中,例如ECHR案例中的“事实”部分,以缓解这个问题[25]、[26]。更一般地说,NLP研究表明,数据泄漏可能来自多个来源,包括数据集分割不当和训练数据与测试数据之间的内容重叠[24]。这些发现突显了明确定义的评估协议对于可靠性能评估的重要性。然而,在泄漏控制的设置下,任务变得更加具有挑战性,因为模型必须完全依赖事实描述而无法访问揭示决策的信息。这种设置增加了有效上下文建模的重要性,并进一步激发了精心设计分割和聚合策略的需求。
G. 总结 现有的长法律文档分类方法涉及上下文覆盖范围、信息保留、计算成本和部署可行性之间的权衡。长序列模型提高了上下文容量,但仍然计算要求高,而基于摘要的方法可能会遗漏法律上重要的细节。基于分割的方法提供了一个更实用的替代方案,但其有效性在很大程度上取决于如何跨单元整合分布式证据。在这项工作中,进一步采用了泄漏控制的设置,以实现更可靠的评估。在这种设置下,分割设计、跨单元上下文建模和聚合策略的效果变得尤为重要。这些考虑激发了本研究的工作,它将分割和聚合作为明确的设计变量进行研究,并提出了一个面向部署的长法律文档分类框架。
A. 泄漏控制的输入 法律判决通常在法律推理、裁决或对最终结果的引用等部分包含明确或隐含的揭示决策的线索。如果这些部分包含在模型输入中,分类器可能会利用这些线索,导致过于乐观的性能估计[24]。为了避免这个问题,本研究将输入限制在“事实”部分,遵循之前关于泄漏控制的ECHR研究[25]、[26]。设D表示完整的判决,Dfacts表示提取的事实部分。提取过程定义为\(Dfacts = ExtractFacts(D)\)(见图3)。这种限制确保模型依赖于事实描述,而不是揭示结果的伪影。因此,性能差异可以更可靠地解释为建模设计的效果,而不是揭示决策的泄漏。
B. 分割作为一种设计维度 直观地说,这里使用分割将过长的法律文档转换为可管理的局部单元,同时引入重叠以减少重要上下文信息被分割到单元边界之外的风险。变换器编码器的输入长度限制使得直接处理长法律文档变得困难。为了在满足输入限制的同时保留潜在的重要事实细节,本研究采用了分割和聚合框架。具体来说,事实文本被分割成重叠的单元,分割被视为影响上下文连续性、冗余性和计算成本的一个明确设计变量。设L表示文档的总令牌长度,M表示单元大小,Δ表示相邻单元之间的重叠大小。第i个单元定义为\(S_i = Dfacts[p_i:q_i]\)(见图3),其中\(p_i=(i-1)(M-\Delta)\),\(q_i=\min(p_i+M,L)\),第i个单元的长度为\(q_i-p_i\)。步长由\(M-\Delta\)给出。这种表述允许将分割系统地分析为一个可控的设计维度,而不是一个固定的预处理步骤。在这种设计中,单元长度决定了每个输入单元中保留的局部信息量,而重叠控制了相邻单元之间的上下文连续性程度。较小的重叠可能会增加上下文碎片化,而较大的重叠则会引入冗余和额外的计算成本。因此,分割被视为一个直接影响上下文连续性、冗余性和计算成本的结构设计因素。如果事实文本短于一个单元,则将其视为一个单独的填充单元。对于较长的文档,在编码之前保留最后一个短单元并进行填充,以确保不丢弃任何事实内容。
C. 单元级别编码 每个单元使用Legal-BERT[27]进行独立编码,这是BERT[33]的一个领域适应版本。该编码器在令牌级别本质上执行双向上下文建模。给定一个单元\(S_i\),编码器产生上下文化后的令牌表示\(E_i = Encoder(S_i)\)(见图4)。令牌表示的维度由d表示,在本研究中设置为768。从这个序列输出中,使用与[CLS]令牌相关的上下文嵌入作为单元级别的表示:\(z_i = E_{i}^{[CLS]}\in \mathbb{R}^d\)(见图5)。这种设计为每个单元提供了固定维度的表示,同时保持了与预训练变换器的兼容性。它还允许文档表示为一系列语义丰富的单元嵌入,而无需修改底层编码器架构。这种单元级别的编码构成了所提出框架中的第一层双向建模。
IV. 实验结果 本节从设计角度评估了所提出的长法律文档分类框架。除了与代表性基线进行比较外,我们还进行了消融研究和分割分析,以检查不同的设计选择如何影响预测性能。我们还通过注意力可视化提供了定性见解。为了确保控制比较,所有实验设置都使用相同的编码器、泄漏控制协议、训练目标和优化程序,仅改变分割策略和聚合策略。所有报告的结果都是基于五次运行的平均值,以减少单次运行的偶然变化的影响。然而,本研究中没有额外报告标准差、置信区间和统计显著性测试。因此,应对小的数值差异持适当的谨慎态度。
A. 数据集 实验是在Chalkidis等人发布的公开可用的英文ECHR判决数据集上进行的[47]。该数据集包含10,098个案例,时间跨度从1959年到2018年,具有预定义的训练和测试分割。遵循原始设置,仅使用“事实”部分作为模型输入。在本研究中,长法律文档分类任务被实例化为二元违规分类,即确定给定案件是否违反了公约的特定条款。数据集中的法律文档平均长度为2,192个单词,中位长度为1,515个单词。经过WordPiece分词后,如Legal-BERT中所使用的,得到的令牌序列通常比原始单词计数更长,因为法律术语、专有名词和罕见表达可能会被分解成子词单元。ECHR判决数据集的结构如图4所示。为了避免标签泄漏,我们遵循先前的工作,仅限制输入为“事实”部分[25],[26]。该部分描述了案件的背景和情况,而不透露法院的最终结论或裁决。这种设置确保了任务反映了真实的预测条件,而不是利用决策揭示信息。
D. 领域特定预训练的效果 为了评估领域特定预训练的影响,我们将Base-BERT和Legal-BERT作为编码器模型进行了比较。Base-BERT在通用领域的语料库(如Wikipedia和BooksCorpus [33])上进行了预训练,而Legal-BERT则在包括来自美国、英国和欧洲人权法院的文档在内的法律文本集合上进行了进一步预训练[27]。如表2所示,Legal-BERT在所有指标上均优于Base-BERT。具体来说,与Base-BERT相比,Legal-BERT将宏观精确度从84.7提高到89.4,宏观召回率从81.4提高到82.4,宏观F1从82.7提高到84.6。
F. 滑动窗口重叠的效果 为了研究跨段落的上下文连续性的影响,我们评估了滑动窗口分割中不同的重叠大小\(\Delta\)。结果总结在表4中。表4 滑动窗口分割中重叠大小的效果。最佳性能是在100个令牌的重叠下获得的,产生了最高的宏观F1分数(84.6)。较小的重叠可能会减少跨段落的上下文连续性,而过大的重叠会引入冗余信息并增加计算成本。这些结果表明,适度的重叠在保持上下文和效率之间提供了最佳平衡。
G. 消融研究 这项消融研究考察了不同的聚合设置如何影响长法律文档分类。如表5所示,完整模型获得了最高的宏观召回率和宏观F1分数,而没有聚合的变体获得了最高的宏观精确度。这些结果表明,不同的聚合设置可能与不同的决策行为相关,而不是产生统一的改进模式。