AI 能否取代人类？医学教育高风险考试中选择题生成的深度探究

时间：2025年2月10日

来源：BMC Medical Education

编辑推荐：

在医学教育评估里，高质量选择题（MCQs）意义重大，可人工出题耗时耗力。研究人员开展 “AI 与人工生成医学教育选择题对比” 研究，发现 ChatGPT-4o 生成的 MCQs 虽更易且节省时间，但存在不足。这为医学教育考试出题模式优化提供了方向。

在医学教育领域，高质量的选择题（Multiple-Choice Questions，MCQs）对于准确评估医学生知识掌握程度、保障未来临床实践安全起着至关重要的作用。然而，传统上由人类专家编写这些 MCQs 的过程却面临诸多挑战。以香港急诊医学院（Hong Kong College of Emergency Medicine，HKCEM）组织的初级急诊医学考试（Primary Examination on Emergency Medicine，PEEM）为例，每年需两次考试，每次都要新编写 100 道 MCQs，用于约 70 名考生的测试，这无疑给出题专家带来了巨大的压力，甚至可能导致职业倦怠。

与此同时，人工智能（Artificial Intelligence，AI）技术迅速发展，像 ChatGPT-4o 这样的大语言模型（Large Language Models，LLMs）为 MCQs 的生成提供了新的可能。初步研究表明，AI 能够高效生成大量 MCQs，这似乎可以大大减少传统出题方式所耗费的时间和成本。但在高风险的专业医学考试情境下，AI 生成的 MCQs 能否精准评估医学知识，仍然是一个未知数。过往研究大多聚焦于 AI 在教育场景中的效率和实用性，却较少关注其生成问题的质量和心理测量学稳健性。而且多数相关研究依赖于轶事证据或小规模评估，缺乏对 AI 真正潜力评估所必需的严格验证。例如，有些研究仅由少数评审人员对 AI 生成的题目进行评价，其结果的主观性较强；还有些针对本科阶段低风险考试的研究，难以直接推广到高风险的医学专业考试中。

为了解决这些问题，香港中文大学等机构的研究人员开展了一项前瞻性队列研究。研究人员招募了准备参加 2024 年 8 月 PEEM 考试的医生作为研究对象。参与者需要完成两组各 100 道 MCQs，一组由 ChatGPT-4o 生成，另一组则由人类专家编写。之后，6 名未参与出题的急诊医学专家组成评审小组，从事实正确性、与急诊医学的相关性、难度水平、与布鲁姆分类法（Bloom’s taxonomy，用于衡量认知水平，包括记忆、理解、应用和分析等层次）认知水平的一致性以及题目编写缺陷等五个方面，对两组 MCQs 进行严格评估。同时，研究人员还进行了心理测量分析，计算难度指数、区分指数和库德 - 理查森信度系数（Kuder Richardson Reliability，KR-20），并评估考生的表现和答题时间效率。

研究结果

参与者特征：研究共涉及 24 名参与者，参与率为 64.9% 。参与者平均毕业年限为 1.46 年（标准差），其中实习医生占 37.5%，住院医生占 62.5%；性别分布上，女性占 33.3%，男性占 66.7%，年龄主要集中在 25 - 29 岁（54.2%）。
心理测量项目分析：AI 生成的 MCQs 难度指数显著高于人类编写的 MCQs（均值分别为 0.78 和 0.69，），这表明 AI 生成的题目更简单。但在区分指数方面，两者无显著差异（AI 生成的 MCQs 均值为 0.22，人类编写的为 0.26），且均未达到高风险医学考试的理想水平（区分指数被认为是良好的区分度），不过都处于可接受范围。在信度方面，AI 生成的 MCQs 的 KR-20 值为 0.75，人类编写的略高，为 0.83。两组题目的一致性为中等但具有统计学意义（组内相关系数，），AI 与人类编写的 MCQs 成绩之间的皮尔逊相关性也为中等且显著（皮尔逊相关系数，决定系数，）。
专家评审：专家评审发现，AI 生成的 MCQs 在事实错误（6% vs 4%）、与急诊医学的相关性（6% vs 0%）以及难度水平的适宜性（14% vs 1%）等方面，问题均多于人类编写的 MCQs。AI 生成的重复题目比例也更高（14% vs 7%），在题目编写缺陷方面，AI 生成的 MCQs 比人类编写的略多（37% vs 35%），主要体现在题干中的模糊信息和不必要内容。而人类编写的 MCQs 则存在更多的语法和拼写错误。从布鲁姆分类法认知水平分析，AI 生成的 MCQs 主要测试 “记忆” 和 “理解” 等较低层次的认知技能，人类编写的 MCQs 则更多地评估 “应用” 和 “分析” 等高层次认知技能（，）。
时间花费分析：AI 生成 MCQs 所需的总时间（24.5 人时）显著少于人类编写（96 人时），尤其是在初始编写阶段，AI 仅需 2 小时，而人类花费了 71 小时。

研究结论与讨论

该研究表明，ChatGPT-4o 在生成 MCQs 方面具有显著的时间效率优势，能够快速产出大量题目，为教育机构节省了大量的时间和成本。但其生成的题目在内容质量和评估高层次认知技能方面存在不足。

虽然 AI 生成的 MCQs 区分指数与人类编写的相当，但整体区分效果仍未达到高风险医学考试的理想标准，这意味着在选拔高水平和低水平考生方面，AI 生成的题目还有提升空间。而且 AI 生成的题目在事实准确性、与考试内容的相关性以及难度适宜性等方面存在较多问题，这些问题可能会对考生的学习和评估产生负面影响。此外，AI 生成的题目主要侧重于测试较低层次的认知技能，难以全面评估考生对医学知识的综合应用和深入分析能力。

因此，在医学教育高风险考试中，完全依赖 AI 生成 MCQs 并不可行，人类专家的审核和完善至关重要。未来，可构建 AI 与人类协作的混合框架，利用 AI 的高效性进行初始题目生成，再由教育工作者进行审查、优化和验证。通过定期的反馈循环和优化提示工程，引导 AI 系统生成更符合实际应用场景、能测试高层次认知技能的题目。

同时，研究人员也指出了本研究存在的一些局限性，如样本量较小，参与者主要为初级医生，可能影响研究结果的普遍性；生成 AI MCQs 的提示未明确强调高层次认知技能，且 AI 生成的题目在模拟考试中使用，人类编写的题目用于实际考试，这些差异可能干扰研究结果。此外，AI 模型的训练截止时间以及专家评估和参与者未设盲等因素，也可能对研究产生影响。

总体而言，该研究为医学教育考试中 MCQs 的生成提供了重要参考，强调了在利用 AI 技术的同时，必须充分发挥人类专家的专业优势，以确保考试评估的质量和教育的公正性。未来研究应进一步探索如何优化 AI 与人类的协作模式，推动 AI 技术在医学教育高风险考试中的有效应用。

研究方法

研究采用前瞻性队列研究方法。研究对象为准备参加 2024 年 8 月香港急诊医学院组织的初级急诊医学考试（PEEM）的医生，通过邮件邀请符合条件的考生参与，采用便利抽样法进行招募。参与者需完成两组各 100 道 MCQs，一组由 ChatGPT-4o 基于专门设计的提示生成，另一组由 26 名人类专家按照 PEEM 考试指南编写。6 名急诊医学专家对两组 MCQs 进行评审。之后运用统计软件 R 4.4.1 进行描述性统计、心理测量项目分析（计算难度指数、区分指数和 KR-20 值）、相关性分析等。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部