知识图谱(KGs)以三元组(主体实体、关系、对象实体)的形式组织文本事实。除了简单的存储功能外,KGs还支持细粒度推理、逻辑推理和语义理解,使其成为现代人工智能系统的基础。随着大规模知识的快速发展,KGs已广泛应用于各种系统和领域,包括问答(QA)[1]、信息检索[2]等。这些不同的应用突显了一个共同挑战:如何有效地整合和推理异构的、不完整或动态的知识来源,这是KGs泛化的关键。
对KGs的通用研究往往孤立地关注技术方面,如嵌入技术[3]或时间建模[4]、[5],而忽略了对其泛化能力的全面分析。虽然一些研究关注了KGs的泛化问题,特别是对未见元素的预测和推理。其中一些研究预测了知识库外实体的缺失三元组[6],而其他研究则探索了将模型泛化到包含未见实体的新KGs的归纳关系预测[7]、[8],尤其是在资源匮乏的环境中,如少样本[9]和零样本[10]设置。然而,专门针对KGs泛化的系统调查仍然缺乏。
最近的调查试图系统化KGs的研究。从多种模态融合的角度来看,多模态KGs(MMKGs)的调查强调了如何融合视觉、文本或结构信号以增强表示学习和推理[11]、[12]。然而,这些调查并未涉及不同类型的KGs或任务。在KGs三元组中的第四个维度——时间信息也得到了研究。与时间KGs(TKGs)相关的调查涵盖了其时间表示的学习和推理[4]。Wang等人[13]深入探讨了时间信息建模的技术细节,并全面讨论了具体的逻辑细节。但他们仍然孤立地分析时间建模。其他研究则关注KGs上知识的演化[14],或者专注于推理,例如神经符号推理[15],或者扩展到不同知识或未知分布的推理能力的泛化[3]。
尽管取得了这些进展,但这些研究仍然局限于从单一视角提出方法或进行分析。它们将分析限制在特定的KGs(例如时间或多模态数据)或单一的方法论视角(例如推理架构)。因此,对于基于知识图谱的模型的泛化能力仍缺乏全面的分析。
在本文中,我们通过从多个角度分析基于知识图谱的模型来弥合这一差距,包括特征、类型、维度和任务(我们还提供了一个直观的四维图表,如图1所示):
特征(F):模型在KG特征上的泛化能力,包括结构特征[16]、文本特征[17]及其融合[18]。
类型(T):模型在不同类型KGs上的泛化能力,包括传递类型[19]、归纳类型[20]、完全归纳类型[21]和独立类型[22]。
维度(D):模型在KG信息维度上的泛化能力,包括时间维度[23]和模态维度[24]。
任务(K):模型在KG任务上的泛化能力,包括基本KG任务[25]、领域KG任务[26]和多任务[27]泛化。
图2显示了分类的详细信息。我们调查了200多篇论文,包括2022-2025年著名国际会议的相关论文以及一些经典论文。该图表根据我们提出的四维框架对这些方法进行了组织。我们还为每个类别添加了符号标签,如
F, T, D, K。这些符号在整个论文中提供了简洁统一的参考,其详细定义在表1中呈现。总体而言,这项调查提供了对KG泛化核心挑战和发展方向的详细分析,并为未来的研究提供了新的视角。总结来说,本文的贡献如下:
(1)全面的多视角KG泛化调查。我们进行了首次系统的KG泛化调查,从多个研究视角进行分析,并强调了多源和异构信息融合在KG泛化中的作用。这项工作调查了来自最近顶级会议和期刊的200多篇代表性论文,涵盖了广泛的任务和应用领域。
(2)四维分类框架和深入分析。我们引入了一个新颖的四维框架(特征(F)、类型(T)、维度(D)、任务(K)),提供了一个细粒度的分类体系,克服了单一视角研究的局限性。在此框架的基础上,我们对每个类别进行了深入分析,以检查现有方法的数据前提、建模策略和适用性限制,以及它们的优点和局限性。
(3)数据集概览和未来研究的可行路线图。我们总结了各种KG泛化任务中广泛使用的数据集。此外,我们确定了四个关键的未来研究方向,包括KG基础模型、LLM与KG的深度整合、演变的KGs和个性化KGs,为未来的进展提供了结构化的指导。