在科技飞速发展的时代,人工智能(AI)已渗透到各个领域,医疗行业也不例外。大语言模型(LLM)驱动的 AI 聊天机器人,如 ChatGPT 和 Gemini,正逐渐改变着医疗教育和临床实践的模式。然而,在牙科领域,AI 聊天机器人的应用还面临诸多疑问。一方面,虽然它们在一些医学领域展现出一定能力,但在牙科专业知识的理解和应用上,其准确性和可靠性尚未得到充分验证。另一方面,牙科专科考试(Dental Specialization Exam,DUS)作为衡量牙医专业能力的重要标准,传统考试模式下,人类考生的表现已较为成熟,而 AI 聊天机器人在这方面的表现如何,却鲜有人知。为了解决这些问题,来自伊斯坦布尔大学 - 塞拉哈帕萨分校(Istanbul University-Cerrahpasa)的研究人员 Soner Sismanoglu 和 Belen Sirinoglu Capan 开展了一项研究,评估 ChatGPT-4.0 和 Gemini Advanced 在 DUS 中的表现,并与人类考生的最佳成绩进行对比。该研究成果发表在《BMC Medical Education》上,为 AI 在牙科领域的应用提供了重要参考。
研究人员开展此项研究时,采用了以下关键技术方法:收集 2020 年和 2021 年 DUS 考试的全部题目,这些题目来自土耳其学生选拔和安置中心(ÖSYM)的数据库。将题目以土耳其语形式分别输入 ChatGPT-4.0 和 Gemini Advanced,要求它们作答,并在 24 小时内完成数据收集。依据 Bloom’s taxonomy 将题目分类为低阶和高阶问题,最后根据考试规则计算得分,并使用 Pearson’s chi-squared test 进行统计分析。
下面来看具体的研究结果:
- 整体表现:ChatGPT-4.0 在 2020 年和 2021 年考试中的正确率分别为 83.3% 和 80.5%,得分分别为 65.5 分和 65.6 分;Gemini Advanced 的正确率分别为 65% 和 60.2%,得分分别为 50.1 分和 48.6 分。ChatGPT-4.0 在两次考试中的表现均优于 Gemini Advanced(p<0.05),但二者整体得分均低于当年最佳考生(2020 年为 68.5 分,2021 年为 72.3 分)(p<0.001)。
- 不同学科表现:在基础医学和临床牙科部分,ChatGPT-4.0 的表现均优于 Gemini Advanced(p<0.001)。牙周病学是两个 AI 聊天机器人表现最佳的临床专科,而牙髓病学和正畸学的表现最差。在牙髓病学方面,ChatGPT-4.0 的正确率为 45%,Gemini Advanced 为 50%;在正畸学方面,ChatGPT-4.0 的正确率为 63.2%,Gemini Advanced 为 42.1%。
- 不同难度题目表现:考试中高阶问题占比 40.3%(共 96 题)。ChatGPT-4.0 在高阶和低阶问题上的表现均优于 Gemini Advanced(p<0.05)。且随着 Bloom’s taxonomy 问题等级的升高,两个 AI 聊天机器人的正确回答率均下降。
- 含图像题目表现:研究中共有 7 道含图像的题目,其中 4 道来自牙髓病学。ChatGPT-4.0 答对 3 题答错 4 题,Gemini Advanced 有 3 题未答且 4 题答错,Gemini Advanced 未回答的题目均含有人体图像。
综合研究结论和讨论部分,该研究意义重大。一方面,虽然 ChatGPT-4.0 和 Gemini Advanced 通过了 DUS 考试,但在基础医学、临床科学和整体得分上,与当年的最佳考生仍存在差距,尤其在牙髓病学和正畸学等临床专科表现欠佳。这表明 AI 聊天机器人在牙科专业知识的掌握和应用上,还无法完全替代人类。另一方面,ChatGPT-4.0 在各方面的表现优于 Gemini Advanced,且在高阶问题上表现更出色,这提示在牙科教育中,ChatGPT-4.0 或许可作为更可靠的辅助教学工具。然而,研究也存在局限性,如 AI 聊天机器人不断更新,研究使用的版本可能不是最新版本;研究仅涵盖 2020 年和 2021 年的考试题目,且含图像题目数量有限,可能无法全面反映 AI 在不同考试形式和更广泛视觉数据下的表现。尽管如此,该研究为 AI 在牙科领域的应用提供了宝贵的参考,推动了 AI 技术在牙科教育和临床实践中的进一步探索与发展。