在医学教育领域,多选题(MCQs)因其能够广泛覆盖课程内容、标准化评估流程并提供统计数据分析而成为主流考核工具。然而,设计高质量的多选题始终是一项艰巨的挑战:设计不当的题目可能扭曲评估结果、削弱有效性,并对学生表现产生负面影响。传统上,MCQs需由教育专家耗时耗力精心设计,并需经过严格验证以确保其可靠性、有效性和难度适宜。随着人工智能技术的快速发展,AI生成MCQs为自动化命题提供了新思路,但其生成的题目是否具备临床相关性和教学合理性仍存在争议。
在此背景下,一篇发表于《Scientific Reports》的研究对三款主流AI聊天机器人(ChatGPT、Perplexity和DeepSeek)生成血液学MCQs的能力进行了系统评估。该研究旨在通过专家定量评价,比较这些模型在内容有效性、认知水平对齐和专家接受度方面的表现,以确定其在医学教育中的实际应用价值。
研究选取了五个血液学核心主题(全血细胞减少、贫血、血小板减少、骨髓增殖性肿瘤和淋巴增殖性肿瘤),每个AI模型根据统一提示词生成50道MCQs(共150道)。三名血液学专家在盲审条件下,从准确性、临床相关性、清晰度、干扰项合理性等维度对题目进行评分。结果显示,DeepSeek在多项指标上表现最优,其题目准确性达4.7±0.4(5分制),临床相关性为4.8±0.3,且所有题目均达到接受阈值(总分≥15/25),无需修订。Perplexity和ChatGPT的题目接受率分别为96%和90%,但部分题目需修订。在认知层次分布上,三款模型均倾向于生成高阶认知题目(应用、分析等),占比达78%-92%,而基础认知题目(知识/理解)占比较低(8%-22%)。此外,所有模型均未自主生成图像类题目,且在多选题类型上呈现差异(如Perplexity生成30%的多答案题目)。
研究采用盲法专家评审流程,由三名血液学专家独立对AI生成的150道MCQs进行评分。评分标准包括准确性、临床相关性、清晰度、干扰项合理性等8项指标,每项按1-5分计分,总分≥15分为接受阈值。题目同时按布鲁姆分类法(Bloom's Taxonomy)进行认知层级分类。统计方法采用平均值±标准差描述各模型表现,并通过百分比比较题目接受率和认知分布。
AI模型在MCQs生成中的性能差异
DeepSeek在准确性、临床相关性和干扰项合理性上均显著优于其他模型(p<0.05),其整体质量评分最高(4.5±0.4)。ChatGPT在干扰项设计上得分最低(4.1±0.8),表明其选项可能过于简单或缺乏迷惑性。在难度和区分度方面,DeepSeek被专家认为具有适当难度和区分能力的题目比例最高(94%和86%)。
布鲁姆分类法与认知层次对齐
所有AI模型均倾向于生成高阶认知题目,其中DeepSeek的高阶题目占比最高(92%),而基础认知题目仅占8%。尽管三款模型在认知分布上无显著统计学差异(p>0.05),但这一趋势凸显了AI生成题目在覆盖全面认知层次上的局限性,需通过针对性提示词优化。
专家验证与接受率
DeepSeek的题目接受率达100%,ChatGPT和Perplexity分别为90%和96%。需修订的题目多存在干扰项设计不合理或临床场景描述不清晰等问题,例如ChatGPT生成的题目中,部分干扰项与正确答案差异过大,降低了区分效度。
该研究结论表明,AI模型(尤其是DeepSeek)能够高效生成高质量、临床相关的血液学MCQs,但其在基础认知题目覆盖和多模态内容生成方面存在不足。未来需通过人机协同工作流和精准提示词工程,优化AI在医学教育评估中的应用。这一发现为减轻教育者负担、提升评估效率提供了实证支持,同时强调了人工审核在确保学术严谨性中的不可替代性。