在医学教育领域,高质量的选择题(Multiple-Choice Questions,MCQs)对于准确评估医学生知识掌握程度、保障未来临床实践安全起着至关重要的作用。然而,传统上由人类专家编写这些 MCQs 的过程却面临诸多挑战。以香港急诊医学院(Hong Kong College of Emergency Medicine,HKCEM)组织的初级急诊医学考试(Primary Examination on Emergency Medicine,PEEM)为例,每年需两次考试,每次都要新编写 100 道 MCQs,用于约 70 名考生的测试,这无疑给出题专家带来了巨大的压力,甚至可能导致职业倦怠。
与此同时,人工智能(Artificial Intelligence,AI)技术迅速发展,像 ChatGPT-4o 这样的大语言模型(Large Language Models,LLMs)为 MCQs 的生成提供了新的可能。初步研究表明,AI 能够高效生成大量 MCQs,这似乎可以大大减少传统出题方式所耗费的时间和成本。但在高风险的专业医学考试情境下,AI 生成的 MCQs 能否精准评估医学知识,仍然是一个未知数。过往研究大多聚焦于 AI 在教育场景中的效率和实用性,却较少关注其生成问题的质量和心理测量学稳健性。而且多数相关研究依赖于轶事证据或小规模评估,缺乏对 AI 真正潜力评估所必需的严格验证。例如,有些研究仅由少数评审人员对 AI 生成的题目进行评价,其结果的主观性较强;还有些针对本科阶段低风险考试的研究,难以直接推广到高风险的医学专业考试中。
虽然 AI 生成的 MCQs 区分指数与人类编写的相当,但整体区分效果仍未达到高风险医学考试的理想标准,这意味着在选拔高水平和低水平考生方面,AI 生成的题目还有提升空间。而且 AI 生成的题目在事实准确性、与考试内容的相关性以及难度适宜性等方面存在较多问题,这些问题可能会对考生的学习和评估产生负面影响。此外,AI 生成的题目主要侧重于测试较低层次的认知技能,难以全面评估考生对医学知识的综合应用和深入分析能力。
因此,在医学教育高风险考试中,完全依赖 AI 生成 MCQs 并不可行,人类专家的审核和完善至关重要。未来,可构建 AI 与人类协作的混合框架,利用 AI 的高效性进行初始题目生成,再由教育工作者进行审查、优化和验证。通过定期的反馈循环和优化提示工程,引导 AI 系统生成更符合实际应用场景、能测试高层次认知技能的题目。
同时,研究人员也指出了本研究存在的一些局限性,如样本量较小,参与者主要为初级医生,可能影响研究结果的普遍性;生成 AI MCQs 的提示未明确强调高层次认知技能,且 AI 生成的题目在模拟考试中使用,人类编写的题目用于实际考试,这些差异可能干扰研究结果。此外,AI 模型的训练截止时间以及专家评估和参与者未设盲等因素,也可能对研究产生影响。
总体而言,该研究为医学教育考试中 MCQs 的生成提供了重要参考,强调了在利用 AI 技术的同时,必须充分发挥人类专家的专业优势,以确保考试评估的质量和教育的公正性。未来研究应进一步探索如何优化 AI 与人类的协作模式,推动 AI 技术在医学教育高风险考试中的有效应用。