编辑推荐:
本期推荐:Sreedhar R团队在JGIM发表研究,首次系统比较大型语言模型(LLMs)与医学教师对形成性评估的评分一致性。该研究通过标准化案例评分分析,发现GPT-4在特定医学知识领域评分与教师组间相关系数达0.82,为AI辅助医学教育评估提供了实证依据,对推动智能化医学人才培养体系构建具有重要意义。
在医学教育领域,形成性评估(formative assessment)一直是培养临床思维和专业技能的核心环节。传统模式下,医学院教师需要投入大量时间批改学生作业和案例分析,但人工评分存在主观性强、标准不统一等问题。随着ChatGPT等大型语言模型(LLMs)的突破性发展,教育界开始探索AI辅助评分的可能性,然而关于LLMs评分可靠性的实证研究仍属空白。这一背景下,Sreedhar R团队在《Journal of General Internal Medicine》发表的研究具有开创性意义。
该研究由美国约翰霍普金斯大学医学院联合多所院校开展,采用横断面对照设计。研究人员收集了来自6所医学院校的320份临床病例分析作业,由15名具有5年以上教龄的医学教师和GPT-4模型分别进行双盲评分。主要技术包括:1)采用标准化评分量表(包括病史采集、鉴别诊断、治疗计划等7个维度);2)计算组内相关系数(ICC)评估评分者间一致性;3)通过Bland-Altman分析比较人工与AI评分差异;4)使用线性混合模型控制学生水平和院校差异。
研究结果显示三个关键发现:
讨论部分指出,LLMs在标准化医学知识评估中展现出替代人工的潜力,可显著减轻教师30-40%的工作负荷。但研究也揭示AI系统在复杂临床判断和文化适应性方面的不足,提示需要开发医学专用的微调(fine-tuning)算法。值得注意的是,Wang G和Liu ZC在致编辑信中强调的模型更新问题得到数据支持——使用6个月前训练版本的GPT-4在评估最新临床指南相关案例时准确率下降12%。
这项研究为医学教育数字化转型提供了重要路标。实践层面建议采用"AI初评+教师复核"的混合模式,既保持评估效率又确保关键能力维度的人工把关。理论层面则提出了医学教育AI评估的"结构化-非结构化"连续谱概念,为后续研究奠定框架。随着LLMs迭代升级,未来需要建立动态验证机制,并开展跨文化、多中心的追踪研究,以全面评估AI在医学教育中的长期影响。
生物通 版权所有