编程时间减少，关注患者时间增加：ChatGPT-5在ICD-10编码放射学报告方面的性能评估

生物通首页 > 今日动态 > 正文

编程时间减少，关注患者时间增加：ChatGPT-5在ICD-10编码放射学报告方面的性能评估

时间：2026年1月18日

来源：International Journal of Medical Informatics

编辑推荐：

临床知识图谱约束学习框架有效提升数据质量信任度，通过类别不重叠和数值聚类结合规则挖掘，利用LLM验证规则临床相关性，在MIMIC-III数据集上显著减少冗余规则并增强约束质量，解决语义不一致问题。

作者：Özge Noben、Ömer Durukan Kılıç、Tjitze Rienstra、Michel Dumontier、Remzi Celebi

机构：马斯特里赫特大学数据科学研究所，地址：Paul-Henri Spaaklaan 1, Maastricht, 6229 GT, Limburg, 荷兰

摘要

高质量、无错误的数据对于开发可靠的数据驱动模型至关重要，尤其是在临床决策支持系统中，因为不准确的预测可能会产生严重后果。虽然知识图谱（KGs）为临床数据提供了结构化且语义丰富的表示形式，但确保其一致性和正确性仍然是一个挑战。现有的规则挖掘技术可以自动从知识图谱中提取逻辑约束，但它们往往会产生冗余或与临床无关的规则，尤其是在处理年龄或实验室值等数值或分类属性时。知识图谱中的约束——旨在捕捉图中不合理或矛盾事实的规则——可以用来发现语义错误：这些事实可能符合底层模式，但与领域知识相矛盾。在这项工作中，我们提出了一个用于临床知识图谱中约束学习的新型框架，该框架能够识别并将高置信度的规则转换为临床上合理的约束。我们提出了两种方法，基于类别不相交性和字面值聚类结合规则挖掘。我们使用专家策划的约束和大型语言模型（LLMs）来验证这些生成规则的实际临床相关性。在MIMIC-III临床数据集上的结果表明，基于规则学习的约束过滤有效地保留了与现有医学知识一致的有临床意义的规则。对于数值数据，我们通过基于聚类的方法实现了可靠的值分组，这些分组生成的规则也得到了LLMs的验证，其输出确认了其中一部分规则的实际临床相关性。通过提供可解释且可扩展的解决方案来处理知识图谱中的语义不一致性问题，本研究有助于提高知识图谱的可信度和临床可用性。

引言

准确无误的数据是开发稳健的数据驱动模型的关键，尤其是在不准确预测可能带来严重后果的领域。数据驱动的临床决策支持系统越来越多地被用于协助医疗人员在诊断过程和治疗计划中。然而，医疗专业人员对基础训练数据中的偏见和质量问题表示担忧，这影响了他们对这类系统的信任[1]、[2]、[3]。传统的数据质量检查依赖于预定义的规则，这些规则通常由领域专家制定。已经提出了多种自动化方法从数据中学习这些领域规则或约束。例如，AnyBURL[4]这样的符号规则挖掘技术可以从数据中学习逻辑Horn风格的规则，同时提供可解释性[5]、[6]、[7]。而像ChatRule[8]这样的基于LLM的规则生成方法则利用语言模型提出语义丰富的规则，提高了可扩展性。尽管取得了这些进展，但在临床背景下仍存在关键问题：1) 许多通过自动化方法挖掘出的规则是冗余或虚假的，需要在医疗质量检查中由专家进行筛选；2) 当前的规则挖掘工具对数值和分类属性（如年龄、实验室值）的支持不足。

知识图谱（KGs）提供了丰富的语义信息，能够表示事实和规则，并对大量信息进行推理。许多规则挖掘解决方案利用这种表示形式来发现高置信度、语义丰富的规则。在这项工作中，我们引入了一个从临床知识图谱中学习约束的框架，在处理字面值的同时推进了技术的发展。

我们的方法[1]使用规则质量指标（如置信度、头部覆盖率）和基于LLM的评估来选择合理的规则，并剔除冗余规则。与以往的方法相比，我们的方法将规则挖掘器的输出减少到一组临床上合理的约束，从而最小化了对人工专家知识的依赖[9]。我们在MIMIC-III数据集[9]上应用AnyBURL规则挖掘器来提取规则。作为广泛使用且公开可用的临床资源，MIMIC-III提供了丰富多样的临床数据，非常适合评估基于规则的约束学习方法的有效性。之后，我们应用数据驱动的过滤方法将规则转换为约束，特别是那些代表临床上不可能情况的规则，更适合进行质量检查。我们的方法在发现MIMIC-III中的医学上合理的约束方面显示出潜力，并有助于加强临床知识图谱的质量检查。

方法论

我们提出了一种基于规则挖掘的方法来发现负面规则（即约束），以支持数据的一致性和准确性。我们的方法旨在：

有效大规模地挖掘相关的负面关联[14]；
发现与数值字面值相关的负面规则[15]。

负面规则学习方法分为两个主要部分：一部分针对分类数据，另一部分针对连续数值数据。对于分类数据，我们利用本体公理...

利用类别不相交性和规则挖掘学习分类数据的约束

为了证明我们方法的有效性，我们测试了通过规则挖掘从MIMIC-III知识图谱中发现的正面规则是否可以转换为临床相关的约束。MIMIC-III数据集是一个理想的基准，因为它具有现实世界的适用性、广泛的采用范围和多样的变量[9]。实验旨在衡量我们的方法在自动挖掘反映专家制定的性别相关约束方面的能力。

讨论

对分类数据的约束学习结果表明，基于类别不相交性和过滤的方法减少了规则的数量，同时保留了相关的规则。这种自适应方法能够学习到大部分有意义的规则，并提高了提取约束的可靠性。此外，学习到的约束与既定的医学约束的一致性表明，我们的方法可以从真实世界数据中捕获医学约束。尽管召回率相对较高，但精确度较低...

结论

本研究提出了一种知识图谱质量评估方法，该方法结合了规则挖掘、属性和实体特征以及LLMs进行约束学习。虽然之前的研究主要集中在结构约束（如类型错误和本体不一致性）上，但缺乏对语义约束的关注。我们的工作通过提出一种可扩展的方法来填补这一空白，该方法将大量自动挖掘出的规则简化为一组高质量的约束，其中许多约束与...

CRediT作者贡献声明

Özge Noben：撰写——审阅与编辑、初稿撰写、可视化、验证、监督、软件开发、资源管理、项目管理、方法论制定、调查、形式分析、数据整理、概念化。Ömer Durukan Kılıç：撰写——审阅与编辑、初稿撰写、可视化、验证、软件开发、方法论制定、形式分析、数据整理。Tjitze Rienstra：撰写——审阅与编辑、初稿撰写、监督、概念化。Michel