1 引言
现代信息检索的基石——稠密检索,主要通过双编码器架构实现,并借助预训练语言模型(PLMs)持续超越BM25等传统词汇模型。其捕获语义相关性的能力,使其成为高级应用(特别是检索增强生成(RAG)框架)中不可或缺的检索组件。RAG系统的性能,尤其是在生物医学等高利害领域,高度依赖于检索信息的质量。提供不完整或边缘相关的文档,会导致下游语言模型生成事实错误或不完整的回答。本研究虽未直接评估端到端RAG流程,但着力于解决一个基本前提:提升检索上下文的质量与全面性,专注于增强检索组件本身。
现代检索器面临的一个主要挑战是“多匹配”问题:单个复杂文档通常包含与多个语义不同的查询相关的信息。例如,一篇关于COVID-19的综合生物医学文章,可能需要应对关于其心脏影响、传播机制和疫苗有效性等不同问题。占主流的单向量表示——将整个文档压缩成一个向量——会形成“语义瓶颈”。即使是融合了外部知识的先进单向量模型,如ELK,仍受此限制。如图1 所示,单一向量无法在几何上同时接近多个距离较远的查询意图,导致漏检。这种局限性在文档充满专业实体和复杂知识的生物医学领域被显著放大。
为克服此问题,多向量方法应运而生,用多个向量表示一个文档。像ColBERT这样的方法存储所有词元嵌入,虽然实现了高精度,但计算成本高昂。这形成了一种明显的权衡:晚交互模型的卓越精度与双编码器的实用效率。本研究旨在弥合这一差距,试图在不牺牲现实应用所需的低延迟性能的前提下,捕获多向量方法的细粒度匹配能力。
为此,我们提出ELK-Multi,一种引入知识引导的实体类型聚类的新框架。我们的核心假设是,来自知识图谱的实体类型(例如“疾病”、“基因”、“化学物质”)为划分文档内容提供了天然的、语义上有依据的锚点。基于这些类型对语境化表示进行聚类,ELK-Multi生成一组细粒度向量,每个向量封装了文档的一个特定主题侧面。与先前工作相比,这种方法提供了一种更有原则且可解释的方式来解开文档的语义。
此外,认识到不同的检索场景需要不同级别的粒度,我们设计了两种有原则的聚合策略:针对简单场景的全局中心方法,以及针对复杂、多匹配繁重任务的、给予全局和局部表示同等重要性的平衡方法。
2 相关工作
相关工作主要从三个角度回顾:通用稠密检索、多向量和晚交互方法,以及生物医学领域的稠密检索。
• 通用目的稠密检索 :单向量稠密检索,以稠密段落检索(DPR) 的双编码器架构为开创,已成为现代信息检索的基石。该范式将查询和文档表示为单个高维向量,通过简单的相似度函数(如点积)高效计算相关性。这种神经方法有效捕获了超越简单关键词重叠的语义关系。后续工作通过高级负采样改进训练动态,例如ANCE、RocketQA和PAIR。另一主要研究方向是面向检索的预训练,以创建更有效的文本表示。然而,尽管有效,所有这些方法都受限于单向量瓶颈,这限制了它们捕捉复杂文档多方面语义的能力。
• 多向量与晚交互方法 :为克服单向量瓶颈,出现了两个主要研究方向:多向量表示和晚交互模型。
• 晚交互模型 :这类模型将相似度计算推迟到查询时,在词元级表示上操作。ColBERT建立了这一范式,通过在所有词元嵌入上进行细粒度的MaxSim操作实现卓越精度。虽然非常有效,但其计算和存储成本过高。ELK-Multi在检索时也使用MaxSim算子,但通过预计算一小组固定的文档向量而非存储所有词元嵌入,保持了双编码器索引范式的效率。
• 多向量表示 :此方法旨在用少量离散向量表示文档。早期方法使用前几个词元的嵌入或多个特殊用途标记的嵌入。更结构化的策略涉及聚类。我们的工作通过提出一种新颖的、知识引导的聚类策略推进了这项研究。我们利用知识图谱中的实体类型作为语义锚点,而不是在原始词元上进行无监督聚类,从而产生更连贯和可解释的文档侧面。
• 生物医学领域稠密检索 :生物医学领域的独特挑战,如专业词汇和对事实准确性的高要求,催生了专门研究。
• 知识增强模型 :一个关键策略是用外部生物医学知识丰富模型。EVA-Multi对与文档链接的外部实体进行聚类以形成多重表示。我们的前身ELK将实体知识直接整合到Transformer架构中进行深度融合。我们提出的ELK-Multi直接基于此构建,但解决了ELK仍然面临的多匹配问题。
• 领域特定预训练与微调 :另一种有效方法是基于大规模生物医学语料库进行预训练或微调。MedCPT是一个强大的基线,它利用大型PubMed搜索日志的对比预训练来实现强大的零样本检索性能。最近,大型语言模型(LLMs) 也被应用于此任务,如BMRetriever等模型展示了通过微调LLMs作为文本检索器的强大能力。
3 方法论
本章详述了我们提出的ELK-Multi框架的架构和机制。
3.1 预备知识与问题形式化
在稠密检索中,给定查询q和大型文档语料库D,目标是检索一组相关文档。主流的单向量范式将查询和每个文档表示为单个稠密向量,Rq ∈ Rd 和 Rd ∈ Rd ,相关性得分通常通过点积等相似度函数计算:sim(q, d) = Rq · Rd 。
然而,该范式面临“多匹配”挑战。为了应对,我们提出文档的多向量表示。目标是学习从文档d到一组向量Rd = {Rd,1 , Rd,2 , …, Rd,M }的映射,其中每个向量代表不同的语义侧面。然后使用MaxSim算子计算相关性得分:sim(q, d) = maxRd,i ∈ Rd (Rq · Rd,i )。这使得只要其任何侧面与查询意图匹配,文档就能被检索到。
3.2 文本编码
如图2 所示,ELK-Multi框架建立在经典的双编码器架构之上。为了有效处理生物医学文本中丰富、微妙的知识,我们的方法植根于知识增强。我们使用共享的知识增强编码器(KeE) ,来自ELK模型,来处理查询和文档。
KeE模型通过用专门的知识Transformer(KT) 层替换标准BERT架构的最后L个Transformer层来增强标准BERT架构。这些KT层旨在融合文本上下文与外部实体知识。
形式上,对于给定文本,我们首先识别实体提及并将其链接到SemMedDB知识图。然后通过KeE产生上下文融合的输出序列,并提取[CLS]嵌入作为文档的全局表示Rd 。
3.3 实体类型聚类
全局表示Rd 捕获了文档的整体主题,但难以表示其多个细粒度语义侧面。为此,我们引入了新颖的实体类型聚类机制。
核心假设是高质量的实体类型(例如“DISEASE_OR_SYNDROME”、“GENE_OR_GENOME”)可作为文档内不同语义主题的自然代理。对于文档中存在的每个实体类型Ti ,我们形成两个不同的聚类,创建双重视图表示:(1) 基于词元的聚类 (Ci tok ) :与类型Ti 的所有实体提及相关联的语境化词元 嵌入集合。(2) 基于实体的聚类 (Ci ent ) :类型Ti 的所有实体的语境化实体 嵌入集合。
这种双重聚类设计旨在捕获上下文特定和规范语义。基于词元的聚类捕获实体的细粒度、语境细微差别,而基于实体的聚类聚合实体的规范、上下文无关表示,提供更稳定、通用的语义信号。
为了将每个聚类提炼成单个代表性向量,我们采用注意力池化机制。该机制使用全局文档表示Rd 作为上下文查询,使模型在构建局部表示时强调与文档主题最相关的向量。
3.4 文档的多向量表示
生成了全局表示Rd 以及细粒度局部表示集合{Ci tok }和{Ci ent }后,我们引入两种不同的策略来构建文档的最终多向量表示。
• 3.4.1 全局语义导向方法 (ELK-Multi-cat) :针对多匹配复杂性低的检索场景设计。它构建一组连接向量,每个向量以全局表示Rd 开始,后跟一个基于实体的局部聚类表示。查询表示也相应地构建为全局查询向量与其实体嵌入的聚合表示连接。
• 3.4.2 全局与局部语义导向方法 (ELK-Multi-sep) :针对多匹配查询高发的场景设计。它将全局表示和所有基于词元的局部表示集合的并集作为多向量集。查询仅由其全局向量表示。
对于两种策略,我们使用MaxSim算子计算单个查询向量与文档多向量集之间的最终相关性得分。MaxSim算子对于我们的多向量方法至关重要,它通过考虑文档的任何语义侧面(包括其全局主题或特定局部主题)是否与查询匹配来解决多匹配问题。
3.5 目标函数
ELK-Multi框架使用结合了主要检索损失和辅助对齐损失的复合目标函数进行端到端训练。
主要目标是用于优化检索任务的对比损失(InfoNCE损失)。为了规范化模型并确保有意义的知识融合,我们采用了源自ELK模型的辅助对齐损失。该损失鼓励模型将文本表示和知识表示映射到统一的语义空间中,迫使模型学习更健壮的文本上下文和外部知识的融合,而不是将它们视为分离的、不相关的信号。总体训练目标是两个损失的加权和:L = Lcon + λLalign ,其中λ是平衡两个分量的超参数。
4 实验设置
4.1 数据集与评估指标
我们在两个标准、公开可用的生物医学检索基准上评估模型:TREC-COVID (大规模COVID-19科学文献检索数据集)和NFCorpus (旨在模拟真实世界用户需求的全文本生物医学检索基准)。我们采用标准信息检索指标:归一化折损累积增益(NDCG@k)、召回率(Recall@k)、平均精度均值(MAP)和平均倒数排名(MRR)。
4.2 基线模型
我们与全面的强大基线进行比较,按核心方法分类:标准和多向量稠密检索模型(如DPR、MeBERT、UniCOIL、ColBERTv2);检索导向的预训练模型(如Condenser、coCondenser、RetroMAE、SIMLM、COSTA);以及知识增强模型(如EVA-Single、EVA-Multi、ELK)。
4.3 实现细节
ELK-Multi框架使用与ELK相同的KeE。实体知识来源于SemMedDB知识图,实体嵌入使用TransE预训练并在训练期间冻结。使用现成的SciSpacy工具包识别和链接文本中的实体提及。所有模型均在单个NVIDIA 2080Ti GPU上训练。我们使用Adam优化器。为了保持一致的向量数量,我们为每个文档设置了最多k‘=5个聚类。所有文档表示均使用Faiss库进行离线索引,以进行高效的近似最近邻(ANN)搜索。
5 实验结果
5.1 有效性分析
主要结果表明,我们框架的两种变体ELK-Multi-cat和ELK-Multi-sep在兩個数据集上一致地优于所有基线模型,创造了新的性能记录。这证明了我们提出的实体类型聚类方法用于构建多向量表示的有效性。通过与最强基线ELK进行的配对t检验证实,我们的改进在大多数关键指标上具有统计学显著性(p < 0.05)。例如,ELK-Multi-sep在NFCorpus上的Recall@1000相比ELK有2.6%的绝对提升(0.8274 vs. 0.8017)。值得注意的是,与强大的晚交互模型ColBERTv2相比,我们的ELK-Multi-sep模型在关键召回指标上实现了极具竞争力的性能,同时仍在高效的双编码器范式内运行。此外,在TREC-COVID上,全局中心的ELK-Multi-cat策略在NDCG等指标上表现更优,这与该数据集多匹配查询比例较低的分析一致。
5.2 消融研究
消融研究证实了我们框架中每个核心组件的重要性:1) 知识增强编码器(KeE) :移除KeE会导致所有指标的性能显著下降,强调了外部知识对模型理解生物医学文本复杂语义的重要性。2) 实体类型聚类 :用无监督k-means聚类替换我们提出的知识引导聚类会导致性能明显恶化,验证了使用知识图谱中的实体类型作为聚类锚点的价值。3) 双重聚类视图 :移除基于词元或基于实体的聚类中的任一视图都会损害性能,证实了捕获语境特定和规范语义的双重视角设计的有效性。4) 注意力池化 :用平均池化或最大池化替换注意力池化机制会导致性能下降,表明根据文档全局主题动态加权聚类内向量的重要性。5) MaxSim算子 :用平均相似度替换MaxSim算子会导致显著性能损失,证实了其对于充分利用多向量表示捕获不同查询意图能力的关键作用。
5.3 不同多匹配复杂性下的性能
我们分析了模型在不同多匹配复杂性(基于文档相关查询数量)下的表现。分析证实了我们的核心假设:与单向量基线ELK相比,ELK-Multi模型在相关性查询数量多的文档上取得了更大的性能提升。这表明我们的多向量表示有效地缓解了单向量模型固有的语义瓶颈问题,特别是在信息需求多样化的复杂文档上。
5.4 不同聚合策略的案例研究
对具体查询-文档对的定性分析阐明了两种聚合策略的运作机制。案例表明,ELK-Multi-cat策略更擅长捕获与文档核心主题相关的查询,因为它以全局向量为主导;而ELK-Multi-sep策略在文档的特定局部侧面与查询高度匹配时表现更佳。这证实了针对不同检索场景设计不同策略的必要性。
5.5 超参数分析
我们对关键超参数进行了分析:1) 最大聚类数k‘ :性能随着k’增加而提升并趋于稳定,表明模型能够有效利用多个语义侧面。最终选择k‘=5以平衡性能与效率。2) 对齐损失权重λ :最佳值在0.3附近,表明适度的对齐正则化对促进有效知识融合有益,而过大的权重会干扰主要的检索任务优化。
6 效率分析
我们将ELK-Multi与代表性模型(ELK, EVA-Multi, ColBERTv2)进行了全面的效率和可扩展性比较。结果清晰地展示了不同模型范式之间的权衡:ColBERTv2实现了最高的精度,但以极高的索引大小和查询延迟为代价。ELK-Multi模型,特别是ELK-Multi-sep,在保持接近ColBERTv2的高召回性能的同时,其索引大小仅略大于单向量模型(ELK),查询延迟也保持在双编码器模型的可接受范围内。与同为多向量的EVA-Multi相比,ELK-Multi在所有指标上都显示出显著优势,证明了我们知识引导聚类方法的优越性。总之,效率分析表明,ELK-Multi成功地获得了多向量方法在解决多匹配问题方面的益处,而没有像晚交互模型那样引入过度的计算开销,从而在检索准确性和系统效率之间取得了良好的平衡。
7 结论与未来工作
本文提出了ELK-Multi,一个新颖的知识增强多向量稠密检索框架,用于解决生物医学领域复杂文档的“多匹配”挑战。通过引入实体类型聚类,ELK-Multi生成了细粒度、语义连贯的文档表示,并通过两种原则性聚合策略适应不同的检索复杂度。在TREC-COVID和NFCorpus数据集上的广泛实验证明,ELK-Multi显著优于先进的单向量和现有多向量检索模型,创造了新的性能记录。效率分析进一步证实,该模型在高效双编码器范式内实现了这一性能。
未来工作有几个有前景的方向:1) 将我们的方法扩展到跨语言生物医学检索;2) 探索更先进的知识融合技术,例如动态知识图;3) 将ELK-Multi直接集成到端到端RAG管道中进行评估;4) 研究将我们的多向量聚类方法应用于更广泛的领域(如法律或科学文献检索)的潜力。
打赏