基于本体论的知识图谱用于缓解大型语言模型中的幻觉现象，以支持临床问答任务

时间：2026年1月30日

来源：Journal of Biomedical Informatics

编辑推荐：

本研究提出基于本体知识图谱的GraphRAG框架，整合埃及五家医院COVID-19数据构建RDF/OWL本体，通过SPARQL查询验证LLM答案。实验显示该框架准确率达98%，较ChatGPT-4（37%）和DeepSeek-R1（52%）提升显著，幻觉率降至1.7%，验证了语义知识嵌入的有效性。

Mohamed Ali|Zaki Taha|Mohamed Mabrouk Morsey

计算机科学与信息科学系，艾因沙姆斯大学，El-Khalyfa El-Mamoun街，Abbasya，11566，开罗，埃及

摘要

目标：

大型语言模型（LLMs）在生物医学信息学领域展现出巨大潜力，但经常生成幻觉性或事实错误的回答，这限制了它们的临床应用价值。本研究旨在开发并评估一个基于本体论的知识图谱框架GraphRAG，以减少临床问答中的幻觉现象。

方法：

我们利用来自多个埃及机构的临床和医院数据，设计了一个特定领域的资源描述框架（RDF）/Web本体语言（OWL）本体和知识图谱。该本体与LLMs集成，以在问答过程中实现结构化的语义关联。临床问题在三种情况下进行了评估：（i）基线模型ChatGPT-4，（ii）DeepSeek-R1，以及（iii）我们基于本体论的框架。准确性是根据五项经过同行评审的埃及医院研究得出的参考答案来评估的。

结果：

我们的GraphRAG框架显著优于基线模型。ChatGPT-4的准确率为37%，DeepSeek-R1的准确率为52%，而基于本体论的框架的准确率为98%（60个问题中正确回答了59个）。幻觉率从ChatGPT-4的约63%和DeepSeek-R1的48%降低到我们框架的1.7%，相对于最先进的LLMs而言，幻觉率降低了61%以上。该框架还确保了答案的一致性和可重复性，并与临床知识保持一致，证明了其在医疗应用中的稳健性。

结论：

基于本体论的知识图谱为减少基于LLM的临床问答中的幻觉现象提供了一种可靠且可验证的方法。通过将结构化的临床语义嵌入推理过程，该框架提高了事实准确性、可重复性和生物医学信息学的安全性。这项工作突显了语义知识表示在构建可信的人工智能（AI）系统以支持医疗决策中的关键作用。

引言

COVID-19大流行产生了前所未有的大量临床研究，特别是在埃及，那里的医院特定发现揭示了重要的流行病学模式。虽然大型语言模型提供了有前景的信息检索能力，但它们倾向于产生幻觉性回答，这在医学背景下带来了重大风险。现有文献指出，通用大型语言模型（LLM）在医学领域的回答中存在显著的事实不准确性[1]、[2]、[3]。我们对埃及COVID-19文献的后续分析显示，大约38%的LLM生成的答案包含关于当地治疗方案和结果的事实错误。我们通过语义知识基础化（称为Graph Retrieval-Augmented Generation，GraphRAG）的方法来解决这一问题。我们提出了：（1）一个针对埃及医疗环境的经过临床验证的COVID-19本体，该本体是在考虑了缺乏地方特异性的现有通用本体后开发的（详见第2.1节）；（2）一个整合了多医院研究的资源描述框架（RDF）知识图谱；（3）一个通过SPARQL协议和RDF查询语言（SPARQL）介导的响应生成方法，与传统的LLMs相比，幻觉率降低了61%。通过将响应锚定在本体关系上而不是参数化召回率上，我们使人工智能（AI）能够在埃及的医疗生态系统中可靠地部署。

最近在人工智能领域，特别是大型语言模型（LLMs）如GPT-4方面的进展，使得用户能够提出自然语言问题并立即获得答案。尽管LLMs在许多自然语言处理（NLP）任务中表现出色，但它们容易产生幻觉：即自信地生成听起来合理但实际上错误的陈述。这在医学等知识密集型领域尤其成问题，因为准确性至关重要[1]、[2]。事实上，如果一个LLM被问到一个它没有明确训练过的COVID-19问题，它可能会“幻想”出一个在数据中不存在的数字或名称。例如，简单地问ChatGPT：“埃及首例Alpha变种病例是什么时候？”通常会得到一个虚构的答案。这些LLM的错误源于它们隐含知识的缺失以及与真实数据的脱节[2]、[3]。

已经提出了检索增强方法来通过将LLMs与外部知识相结合来减少幻觉[1]、[4]。特别是，将LLMs与结构化知识图谱结合可以使用知识图谱中的关系来组织检索到的信息，从而显著减少LLM的幻觉[4]。Agrawal等人指出，当代LLMs“容易产生幻觉，主要是由于知识空白”，而基于知识图谱的增强方法在减少这些幻觉方面显示出“有希望的结果”[3]。因此，利用显式的本体和知识图谱似乎对COVID领域的事实问答很有前景。

在这项工作中，我们针对埃及数据的准确COVID-19问题回答问题。我们建议从埃及医院研究中构建一个RDF知识图谱，并将其作为用户问题和答案之间的中间层。具体来说，我们（1）从文献中提取结构化实体和关系，（2）将它们编码为Web本体语言（OWL）本体和RDF三元组，（3）将用户查询转换为SPARQL以检索精确的答案。通过直接在经过验证的RDF数据上回答问题，而不是仅仅依赖LLM的内部模型，我们避免了幻觉现象。提出的贡献包括：

•
一个针对埃及医院数据的可扩展COVID-19本体，用Protégé编码并导出为RDF。
•
一个基于NLP/LLM的流程，用于从医学论文中提取实体并填充RDF图谱。
•
一个通过LLM（给定RDF图谱）生成SPARQL查询并返回真实答案的问题回答工作流程。
•
一项评估表明，与独立的LLMs相比，所提出的方法对所有测试问题都给出了正确的答案，而独立LLMs的答案往往是不正确的。

本文的结构如下。第2节回顾了与生物医学本体、知识图谱和基于LLM的问题回答相关的工作，重点介绍了减少幻觉的方法。第3节介绍了本体和大型语言模型的基础概念。第4节描述了所提出的本体和RDF知识图谱，包括提取和查询流程。第5节介绍了评估设置，第6节报告并讨论了实验结果。第7节详细讨论了该框架的含义、优势和局限性。最后，第8节总结了本文并指出了未来的研究方向。

部分摘录

COVID-19知识图谱和本体

自大流行开始以来，人们付出了大量努力来构建知识图谱（KGs），以整合COVID-19信息。例如，Chatterjee等人对COVID-19 KGs进行了探索性回顾，发现知识图谱可以有效地“将文档中的多条信息链接起来”以回答复杂查询[5]。在一个值得注意的项目中，Chen等人使用语义网技术（RDF/OWL）将生物医学文献中提取的实体与策划的信息结合起来

本体（语义模型）

本体是一个领域共享概念化的正式、明确的规范。它定义了一个词汇表（概念）、属性（关系和属性）以及模型化该领域相关实体、事件和关系的公理。本体使得不同的数据源能够被链接：一旦数据被标注了共同的类和属性IRIs，它们就可以互操作。

本体通过结构化的分类法（类和子类）来形式化领域知识

数据来源

我们首先收集了来自埃及医院的相关COVID-19报告和数据集。具体来说，我们使用了五篇已发表的论文，涵盖了以下医院：陆军部队的Fever医院[10]、艾因沙姆斯大学医院[11]、Sohag大学医院[12]、Minia大学医院[13]和Zagazig大学医院[14]。这些论文包括患者统计数据、症状频率、变异序列以及埃及特定地区的发病率。这非常重要

指标和评估设置

为了评估所提出的方法，我们创建了一组60个基于事实的问题，这些问题专门针对埃及的COVID-19。这些问题来自我们的图谱数据，包括表2中的查询。我们手动制定了这些问题的SPARQL查询（因为我们知道RDF），并从图谱中验证了正确答案。

接下来，我们让两个基线模型（ChatGPT和DeepSeek）在没有RDF上下文的情况下回答相同的问题。我们用简单的英语向它们提出了问题。

评估数据集

如图4所示，60个经过临床验证的问题基于问题的性质以及回答它所需的知识或推理类型，与信息来源无关：

•
事实/统计问题：要求提供源数据中明确提到的具体、离散的事实、数字、日期或统计数据。答案是直接查找的结果。
•
调查/验证问题：旨在验证某个特定陈述或假设的真实性

讨论

本研究的结果表明，基于本体论的知识图谱可以显著减少LLM在临床问答中的幻觉现象。通过将模型输出锚定在从埃及医院数据派生的经过临床验证的RDF/OWL本体中，我们实现了98%的准确率，远超ChatGPT-4（37%）和DeepSeek-R1（52%）等最先进系统。本节讨论了这些发现的意义，将它们与之前的工作进行了对比，并概述了