COVID-19大流行产生了前所未有的大量临床研究,特别是在埃及,那里的医院特定发现揭示了重要的流行病学模式。虽然大型语言模型提供了有前景的信息检索能力,但它们倾向于产生幻觉性回答,这在医学背景下带来了重大风险。现有文献指出,通用大型语言模型(LLM)在医学领域的回答中存在显著的事实不准确性[1]、[2]、[3]。我们对埃及COVID-19文献的后续分析显示,大约38%的LLM生成的答案包含关于当地治疗方案和结果的事实错误。我们通过语义知识基础化(称为Graph Retrieval-Augmented Generation,GraphRAG)的方法来解决这一问题。我们提出了:(1)一个针对埃及医疗环境的经过临床验证的COVID-19本体,该本体是在考虑了缺乏地方特异性的现有通用本体后开发的(详见第2.1节);(2)一个整合了多医院研究的资源描述框架(RDF)知识图谱;(3)一个通过SPARQL协议和RDF查询语言(SPARQL)介导的响应生成方法,与传统的LLMs相比,幻觉率降低了61%。通过将响应锚定在本体关系上而不是参数化召回率上,我们使人工智能(AI)能够在埃及的医疗生态系统中可靠地部署。
最近在人工智能领域,特别是大型语言模型(LLMs)如GPT-4方面的进展,使得用户能够提出自然语言问题并立即获得答案。尽管LLMs在许多自然语言处理(NLP)任务中表现出色,但它们容易产生幻觉:即自信地生成听起来合理但实际上错误的陈述。这在医学等知识密集型领域尤其成问题,因为准确性至关重要[1]、[2]。事实上,如果一个LLM被问到一个它没有明确训练过的COVID-19问题,它可能会“幻想”出一个在数据中不存在的数字或名称。例如,简单地问ChatGPT:“埃及首例Alpha变种病例是什么时候?”通常会得到一个虚构的答案。这些LLM的错误源于它们隐含知识的缺失以及与真实数据的脱节[2]、[3]。
已经提出了检索增强方法来通过将LLMs与外部知识相结合来减少幻觉[1]、[4]。特别是,将LLMs与结构化知识图谱结合可以使用知识图谱中的关系来组织检索到的信息,从而显著减少LLM的幻觉[4]。Agrawal等人指出,当代LLMs“容易产生幻觉,主要是由于知识空白”,而基于知识图谱的增强方法在减少这些幻觉方面显示出“有希望的结果”[3]。因此,利用显式的本体和知识图谱似乎对COVID领域的事实问答很有前景。
在这项工作中,我们针对埃及数据的准确COVID-19问题回答问题。我们建议从埃及医院研究中构建一个RDF知识图谱,并将其作为用户问题和答案之间的中间层。具体来说,我们(1)从文献中提取结构化实体和关系,(2)将它们编码为Web本体语言(OWL)本体和RDF三元组,(3)将用户查询转换为SPARQL以检索精确的答案。通过直接在经过验证的RDF数据上回答问题,而不是仅仅依赖LLM的内部模型,我们避免了幻觉现象。提出的贡献包括:
- •
一个针对埃及医院数据的可扩展COVID-19本体,用Protégé编码并导出为RDF。
- •
一个基于NLP/LLM的流程,用于从医学论文中提取实体并填充RDF图谱。
- •
一个通过LLM(给定RDF图谱)生成SPARQL查询并返回真实答案的问题回答工作流程。
- •
一项评估表明,与独立的LLMs相比,所提出的方法对所有测试问题都给出了正确的答案,而独立LLMs的答案往往是不正确的。
本文的结构如下。第2节回顾了与生物医学本体、知识图谱和基于LLM的问题回答相关的工作,重点介绍了减少幻觉的方法。第3节介绍了本体和大型语言模型的基础概念。第4节描述了所提出的本体和RDF知识图谱,包括提取和查询流程。第5节介绍了评估设置,第6节报告并讨论了实验结果。第7节详细讨论了该框架的含义、优势和局限性。最后,第8节总结了本文并指出了未来的研究方向。