基于人工智能的大型语言模型在放射影像中识别牙科种植体的准确性与误判行为

时间:2026年5月17日
来源:Journal of Dentistry

编辑推荐:

Nan Hsu Myat Mon Hlaing | Koungjin Park | Qiucen Wan | Sang J. Lee | German O. Gallucci | Jae-Hyun Lee 韩国首尔国立大学牙科学院修复学系 **摘要** **目的**

广告
   X   

Nan Hsu Myat Mon Hlaing | Koungjin Park | Qiucen Wan | Sang J. Lee | German O. Gallucci | Jae-Hyun Lee
韩国首尔国立大学牙科学院修复学系

**摘要**
**目的**
本研究旨在评估四种基于人工智能的大型语言模型(LLMs)在识别放射影像中的种植牙特征(包括种植体水平、连接类型、品牌和制造商)方面的准确性和错误模式。

**方法**
共收集并分析了120张标准化放射影像(60张根尖片和60张全景片),这些影像代表了六种种植牙系统(Straumann BL、Straumann TL、Osstem TS [Hiossen ET]、Osstem [Hiossen] US、Osstem [Hiossen] SS 和 Dentium SuperLine)。对于每张影像,使用标准化提示分别向四种多模态LLMs(ChatGPT-5、ChatGPT-4o、Gemini 2.5 Pro 和 Grok 4)询问六次,要求其提供种植体水平、连接类型、品牌和制造商的信息。主要评估指标是响应的准确性;不正确的响应进一步分为明确错误(幻觉性错误)、暂时性错误、模糊回答或拒绝回答。统计分析采用广义估计方程来评估准确性,错误类型则通过卡方检验进行分析(α=0.05)。

**结果**
种植体结构特征(水平与连接类型)的识别准确率在51.67%至82.5%之间,而品牌和制造商的识别准确率始终较低(4.17%–32.78%)。幻觉性错误是所有模型中最主要的错误类型(占错误总数的87%以上),其中ChatGPT-5的拒绝回答率相对较高,而幻觉性错误频率较低。

**结论**
当前的LLMs在明确识别种植牙系统方面能力有限,尤其是在特定品牌方面。最新版本的模型在减少幻觉性错误和增加拒绝回答方面表现出积极趋势;然而,其较高的错误率表明它们只能作为辅助工具,需要临床医生的验证。

**临床意义**
当前的LLMs在明确识别种植牙方面不够可靠,其输出结果应结合临床医生的验证进行解读。不过,最新模型越来越倾向于承认不确定性,这为开发更安全的临床决策支持系统带来了希望。

**引言**
种植牙是一种可预测且广泛采用的替代缺失牙齿的治疗方法[1,2]。随着种植牙治疗的普及,不同制造商推出了多种具有不同设计和材料的种植牙系统[3],因此需要维护或重新治疗的患者数量也在增加[4]。在临床实践中,如螺丝松动、修复体断裂或种植体周围炎等并发症的发生,需要准确识别种植牙系统以选择合适的组件[5,6]。然而,当患者记录因诊所关闭、数据丢失或患者转院等原因无法获取时,识别具体的种植牙系统往往具有挑战性[6]。
在无法获取患者记录的情况下,使用根尖片和全景片进行放射学评估是主要的种植牙识别方法[7],尤其是在移除修复体后难以视觉确认种植体平台的情况下。因此,放射学评估在很大程度上依赖于临床医生的知识和经验[7,8]。鉴于目前有数千种种植牙系统,经验丰富的临床医生也难以准确识别每种种植牙的具体特征[9]。因此,需要一种能够独立于临床医生技能水平识别种植牙系统的方法[6,10]。
人工智能(AI)在牙科领域展现出巨大潜力[11, [12], [13]]。以往的研究主要集中在开发深度学习模型(尤其是卷积神经网络CNN)来分类不同的种植牙系统[5, [6], [7], [8], [10], [14], [15], [16], [17], [18], [19], [20], [21], [22]]。这些基于AI的模型表现出较高的准确性,通常超过人类专家的水平;然而,它们的临床应用仍较为有限[9,23]。大多数现有的种植牙识别AI解决方案都是作为专用封闭系统软件开发的,可能需要专门的访问权限、独立的软件集成或针对特定病例的实施。这些模型通常缺乏灵活性,因为它们是在特定的、有限的数据集上训练的,这可能限制了其在日常实践中的可用性和易用性[24]。
最近,具有多模态能力的大型语言模型(LLMs)的出现带来了新的范式,例如OpenAI的ChatGPT和Google的Gemini。与专用CNN模型不同,这些LLMs公开可用,提供对话式界面,并且无需专用图像分析软件即可处理视觉信息。这意味着LLMs可以扩大AI辅助解读的普及范围[25], [26], [27], [28], [29], [30],使临床医生能够上传放射影像并实时请求识别。此外,与仅处理图像的CNN不同,多模态LLMs可以将放射数据与文本临床记录整合在一起。这种整体方法符合当前向混合诊断模型发展的趋势,后者能够提供更全面的评估以支持临床决策。
然而,这些通用LLMs在种植牙学中的诊断能力仍很大程度上未知。特别值得关注的是“幻觉性错误”现象,即生成看似正确但实际上错误的响应[31]。在种植牙领域,错误的识别比未能识别更为有害,因为将假体连接到错误识别的种植体上可能导致机械并发症,如螺丝松动、断裂或内部螺纹损坏[4,5,32]。因此,尽管诊断准确性是首要考虑因素,但评估这些模型的安全性特征(包括在不确定时选择拒绝回答的倾向)可能有助于更好地理解模型输出[32,33]。
因此,本研究旨在评估四种代表性LLMs(ChatGPT-5、ChatGPT-4o、Gemini 2.5 Pro 和 Grok 4)在利用放射影像识别种植牙特征方面的表现。主要评估指标是每种种植牙特征(水平、连接类型、品牌和制造商)的识别准确性;次要评估指标是错误类型分布,特别关注幻觉性错误相关的响应和拒绝回答行为。零假设认为各模型在识别准确性或错误类型分布上没有显著差异。

**研究设计与数据集组成**
这项横断面研究基于回顾性收集的放射影像和临床记录,遵循赫尔辛基宣言进行,并获得了首尔国立大学牙科医院伦理委员会的批准(批准编号ERI25042),无需患者知情同意。本研究遵循《加强流行病学观察性研究报告》(STROBE)指南。

**研究样本特征**
根尖片分析的数据集包含37名患者(15名男性[40.54%]和22名女性[59.46%]的60个不同种植牙;平均年龄69.5 ± 14.0岁。全景片分析的数据集包含39名患者(12名男性[30.77%]和27名女性[69.23%]的60个不同种植牙;平均年龄70.8 ± 12.1岁)。每种放射影像模式使用60张影像进行评估,每张影像代表该模式数据集中的一个特定种植牙。

**LLMs之间的准确性比较**
图2展示了四种LLMs在根尖片和全景片上识别种植牙特征的能力。研究结果否定了零假设,显示出模型之间存在显著的性能差异。虽然所有LLMs都具备解读放射影像特征的基本能力,但在识别品牌和制造商方面的准确性(这对修复决策最为关键)始终较低。

**结论**
根据本研究的结果,得出以下结论:
1. 当前LLMs在从放射影像中明确识别种植牙系统方面的能力不足,它们在结构分类方面的表现尚可,但在识别特定品牌和制造商方面存在问题。
2. 幻觉性错误是所有模型中最主要的错误类型;然而,ChatGPT-5在承认不确定性方面表现出明显改进。

**作者贡献**
Nan Hsu Myat Mon Hlaing:概念构思、方法论、软件开发、数据管理、数据分析、正式分析、初稿撰写。
Koungjin Park:概念构思、方法论、项目管理、数据可视化、审稿与编辑。
Qiucen Wan:概念构思、数据管理、数据分析、审稿与编辑。
Sang J. Lee:概念构思、方法论、验证、监督、审稿与编辑。
German O. Gallucci:概念构思、方法论、验证。

**利益声明**
作者声明与本研究无关的任何利益冲突。

**资金信息**
本研究得到了韩国国家研究基金会(NRF)的资助(由韩国政府(MSIT)提供资金,项目编号RS-2025-24803070和RS-2025-25462769)。N.H.M.M.H.还获得了现代汽车 Chung Mong-Koo 基金会的支持。

**数据可用性声明**
支持本研究结果的数据可向相应作者索取。

**作者贡献声明**
Nan Hsu Myat Mon Hlaing:初稿撰写、软件开发、方法论、数据分析、概念构思。
Koungjin Park:审稿与编辑、数据可视化、项目管理、方法论、概念构思。
Qiucen Wan:审稿与编辑、数据分析、概念构思。
Sang J. Lee:审稿与编辑、验证、监督、方法论、概念构思。
German O. Gallucci:审稿与编辑。

**利益冲突声明**
作者声明没有已知的可能影响本文工作的财务利益或个人关系。

生物通微信公众号
微信
新浪微博


生物通 版权所有