解锁医学生评估 AI 输出的关键密码:病理学与案例教学的关键作用

时间:2025年2月10日
来源:BMC Medical Education

编辑推荐:

为探究医学生评估大语言模型(LLMs)临床回应的能力及相关影响因素,帝国理工学院医学院研究人员开展了针对医学生评估 GPT 3.5 临床场景回答的调查研究。结果显示,病理学和基于问题的互动式案例教学最有帮助,仅 5% 学生熟悉 “临床提示工程”。该研究为医学培训设计提供参考12

广告
   X   

在当今医疗领域,人工智能(AI)发展迅猛,大语言模型(LLMs)更是异军突起。像生成式预训练变换器(GPT)这样的 LLMs,在各类专业和学术测试中表现出色,甚至在医学领域,谷歌的 Med-PaLM 2 都能在 美国医学执照考试(USMLE)中取得高准确率的成绩。这不禁让人们思考,未来医生该如何与这些强大的 AI 工具协同工作呢?毕竟,LLMs 虽然潜力巨大,但也存在诸多问题,比如 “幻觉” 现象,会产生错误或与输入无关的输出,给医疗信息带来偏差和误导;而且其性能不稳定,不同的临床提示在不同 LLMs 上效果参差不齐。同时,医学生对如何评估 LLMs 输出、进行临床提示工程等方面的知识也知之甚少。在这样的背景下,研究医学生如何评估 LLMs 输出、哪些学习经历有助于他们进行评估就显得尤为重要。
为了解决这些问题,来自英国帝国理工学院医学院(ICSM)的研究人员展开了深入研究。他们的研究成果发表在《BMC Medical Education》上,为医学教育如何更好地适应 AI 时代提供了重要参考。

研究人员主要采用了问卷调查的研究方法。在 2024 年 1 月,ICSM 的 final year 医学生在准备总结性评估期间参与了此次调查。研究人员让 GPT 3.5 回答一组单项最佳答案(SBA)问题,然后让学生对 GPT 3.5 的回答进行评估。学生需要回答 GPT 3.5 的答案是否正确、判断其正确性需要哪些信息、判断时借鉴了哪些先前学习的内容、学校培训的哪些方面有助于分析这些回答以及这些知识如何应用于 “临床提示工程” 等问题。研究人员通过对 148 名学生的回答进行内容分析,得出了一系列重要结论。

研究结果


  1. 评估准确性:学生正确判断 LLM 输出准确性的中位数百分比为 56% 。在准确判断的理由中,62% 提及特定病理测试,24% 提到血液标志物,14% 指出特定症状3
  2. 学习资源:63% 的学生回应了判断 LLM 输出时借鉴的先前学习领域,其中涉及医学院教学模块(46%)、医学院在线学习资源(21%)以及外部资源(33%)4
  3. 有效教学方式:57% 的学生回答了医学院培训中对分析 LLM 输出有帮助的方面,72% 的评论认为病理学模块或基于问题的互动式案例教学最有价值5
  4. 临床提示工程认知:50% 的学生回答了关于 “临床提示工程” 的问题,但仅 5% 的学生了解这一概念。了解该概念的学生在设计特定临床任务提示和明确 GPT 输出要求方面人数相当6

研究结论与讨论


这项研究表明,病理学和基于问题的互动式案例教学,在帮助医学生安全评估 LLMs 输出方面效果显著。病理学作为医学的基础科学,对诊断推理和治疗决策至关重要;而互动式案例教学能让学生在实际情境中运用知识,提高评估能力。然而,目前医学生对临床提示工程的认知严重不足,这一技能对于优化 LLMs 输出价值至关重要,未来需要加强相关培训。

此外,随着 AI 在医疗领域的广泛应用,医学教育必须做出调整。要将 AI 素养融入临床培训,让医生学会监督、评估和反思 LLMs 输出的价值,确保以患者为中心的循证医学得以实施。同时,研究人员、教育工作者和从业者之间的合作也必不可少,这有助于开发透明的 AI 模型,推动 AI 在医学教育中的合理应用。

总之,该研究为医学教育的改革提供了有力依据,明确了未来医学培训在 AI 时代的发展方向,对培养能够安全、有效地与 LLMs 及其他临床决策支持系统协同工作的医生具有重要意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有