AI 对决人类：ChatGPT-4.0 与 Gemini Advanced 在土耳其牙科专科考试中的表现探秘

时间：2025年2月11日

来源：BMC Medical Education

编辑推荐：

为探究 AI 聊天机器人在牙科教育及实践中的应用可行性，研究人员开展了评估 ChatGPT-4.0 和 Gemini Advanced 在土耳其牙科专科考试（DUS）中表现的研究。结果显示二者虽通过考试，但仍落后于当年最优者。该研究为 AI 在牙科领域的应用提供参考。

在科技飞速发展的时代，人工智能（AI）已渗透到各个领域，医疗行业也不例外。大语言模型（LLM）驱动的 AI 聊天机器人，如 ChatGPT 和 Gemini，正逐渐改变着医疗教育和临床实践的模式。然而，在牙科领域，AI 聊天机器人的应用还面临诸多疑问。一方面，虽然它们在一些医学领域展现出一定能力，但在牙科专业知识的理解和应用上，其准确性和可靠性尚未得到充分验证。另一方面，牙科专科考试（Dental Specialization Exam，DUS）作为衡量牙医专业能力的重要标准，传统考试模式下，人类考生的表现已较为成熟，而 AI 聊天机器人在这方面的表现如何，却鲜有人知。为了解决这些问题，来自伊斯坦布尔大学 - 塞拉哈帕萨分校（Istanbul University-Cerrahpasa）的研究人员 Soner Sismanoglu 和 Belen Sirinoglu Capan 开展了一项研究，评估 ChatGPT-4.0 和 Gemini Advanced 在 DUS 中的表现，并与人类考生的最佳成绩进行对比。该研究成果发表在《BMC Medical Education》上，为 AI 在牙科领域的应用提供了重要参考。

研究人员开展此项研究时，采用了以下关键技术方法：收集 2020 年和 2021 年 DUS 考试的全部题目，这些题目来自土耳其学生选拔和安置中心（ÖSYM）的数据库。将题目以土耳其语形式分别输入 ChatGPT-4.0 和 Gemini Advanced，要求它们作答，并在 24 小时内完成数据收集。依据 Bloom’s taxonomy 将题目分类为低阶和高阶问题，最后根据考试规则计算得分，并使用 Pearson’s chi-squared test 进行统计分析。

下面来看具体的研究结果：

整体表现：ChatGPT-4.0 在 2020 年和 2021 年考试中的正确率分别为 83.3% 和 80.5%，得分分别为 65.5 分和 65.6 分；Gemini Advanced 的正确率分别为 65% 和 60.2%，得分分别为 50.1 分和 48.6 分。ChatGPT-4.0 在两次考试中的表现均优于 Gemini Advanced（p<0.05），但二者整体得分均低于当年最佳考生（2020 年为 68.5 分，2021 年为 72.3 分）（p<0.001）。
不同学科表现：在基础医学和临床牙科部分，ChatGPT-4.0 的表现均优于 Gemini Advanced（p<0.001）。牙周病学是两个 AI 聊天机器人表现最佳的临床专科，而牙髓病学和正畸学的表现最差。在牙髓病学方面，ChatGPT-4.0 的正确率为 45%，Gemini Advanced 为 50%；在正畸学方面，ChatGPT-4.0 的正确率为 63.2%，Gemini Advanced 为 42.1%。
不同难度题目表现：考试中高阶问题占比 40.3%（共 96 题）。ChatGPT-4.0 在高阶和低阶问题上的表现均优于 Gemini Advanced（p<0.05）。且随着 Bloom’s taxonomy 问题等级的升高，两个 AI 聊天机器人的正确回答率均下降。
含图像题目表现：研究中共有 7 道含图像的题目，其中 4 道来自牙髓病学。ChatGPT-4.0 答对 3 题答错 4 题，Gemini Advanced 有 3 题未答且 4 题答错，Gemini Advanced 未回答的题目均含有人体图像。

综合研究结论和讨论部分，该研究意义重大。一方面，虽然 ChatGPT-4.0 和 Gemini Advanced 通过了 DUS 考试，但在基础医学、临床科学和整体得分上，与当年的最佳考生仍存在差距，尤其在牙髓病学和正畸学等临床专科表现欠佳。这表明 AI 聊天机器人在牙科专业知识的掌握和应用上，还无法完全替代人类。另一方面，ChatGPT-4.0 在各方面的表现优于 Gemini Advanced，且在高阶问题上表现更出色，这提示在牙科教育中，ChatGPT-4.0 或许可作为更可靠的辅助教学工具。然而，研究也存在局限性，如 AI 聊天机器人不断更新，研究使用的版本可能不是最新版本；研究仅涵盖 2020 年和 2021 年的考试题目，且含图像题目数量有限，可能无法全面反映 AI 在不同考试形式和更广泛视觉数据下的表现。尽管如此，该研究为 AI 在牙科领域的应用提供了宝贵的参考，推动了 AI 技术在牙科教育和临床实践中的进一步探索与发展。