DeepSeek模型在放射科住院医师培训考试试题生成中的性能评估

时间：2026年3月25日

来源：npj Digital Medicine

编辑推荐：

本研究探讨了大型语言模型DeepSeek在放射科住院医师培训考试（In-training Examination）中生成单选题（MCQs，包括A1、A2、A3/A4类型）的潜能。通过将DeepSeek生成与放射学专家手写的题目混合成28题在线测试，并由40名住院医师完成，发现两者在总体正确率上无显著差异。然而，在涉及临床情景的A3/A4型高阶问题上，DeepSeek生成题目的表现逊于专家，且其生成的A2型题目的临床现实性评分较低。这表明DeepSeek在辅助医学教育命题方面具有潜力，但在生成复杂临床推理题目时仍需改进。

在医学教育的漫漫征途中，如何高效、科学地评估住院医师的学习成果，始终是教育者们面临的挑战。传统的考试命题依赖资深专家，过程耗时耗力，且可能受限于专家的个人经验与时间。随着人工智能技术的飞速发展，大型语言模型（LLMs）展现出强大的内容生成与理解能力，这为自动化辅助命题带来了新的曙光。那么，一个先进的AI模型，能否像人类专家一样，生成出高质量、符合临床实际、能有效检验学员水平的医学考题呢？这正是本研究试图探索的核心问题。

为了回答这个问题，研究团队将目光投向了放射科住院医师的培训考试。他们选取了当前备受瞩目的DeepSeek模型作为AI代表，与人类放射学专家展开了一场别开生面的“命题对决”。研究的核心目的在于系统评估DeepSeek在生成放射科住院医师培训考试单选题方面的性能，并与专家编写的题目进行多维度比较。

这项研究发表在国际知名期刊《npj Digital Medicine》上。研究人员设计了一项严谨的对照研究。他们让DeepSeek模型和放射学专家分别根据中国的教育标准，生成一系列用于放射科住院医师培训的单选题。这些题目涵盖了A1（单纯知识回忆型）、A2（简单应用型）、A3/A4（基于临床病例情景的高阶推理型）等常见类型。随后，研究人员从两个来源各随机选取14道题，混合组成一份共28题的在线测试。这份测试被发放给40名放射科住院医师（包括17名二年级和23名三年级学员）进行闭卷作答。参与者不仅需要回答每一道题，还需要猜测题目来源（是DeepSeek生成还是专家编写），并对每道题在感知难度、课程相关性、整体质量和临床现实性四个维度上进行评分。通过统计分析两组题目在答题正确率、来源识别准确率以及主观评分上的差异，来全面评判DeepSeek的命题能力。

为开展研究，作者主要运用了以下关键技术方法：首先，利用大型语言模型DeepSeek进行医学考试单选题的自动化生成。其次，采用专家人工编写方式创建对照组的题目。第三，通过随机混编和在线测试平台，对40名放射科住院医师样本（来自同一培训项目，包含不同年级）实施双盲测试。最后，运用统计学方法对收集的答题数据与评分数据进行量化比较分析。

研究结果

总体表现无显著差异

分析结果显示，DeepSeek生成的题目与专家编写的题目，在总体正确回答率上并没有统计学上的显著差异。这意味着，从整体上看，住院医师们回答AI出的题和回答专家出的题，答对的概率是差不多的。此外，在来源归因准确率上，两组题目也没有显著差别，说明学员们并不能 reliably 区分出哪些题是AI生成的，哪些是人工编写的。这初步印证了DeepSeek在基础命题任务上具有一定的可用性。

题目类型分层分析揭示短板

然而，当研究人员对不同题目类型进行分层分析时，差异便显现出来。对于相对简单的A1型题目，住院医师对DeepSeek生成题和专家编写题的正确回答率相似。但是，对于更为复杂的A3/A4型题目（通常包含一个临床病例描述， followed by 多个相关问题），住院医师对DeepSeek生成题的正确回答率显著低于对专家编写题的正确回答率。这表明，在需要结合复杂临床情景进行高阶推理的题目上，DeepSeek目前的表现还不及人类专家。

主观评价显示临床现实性不足

从住院医师的主观评分来看，DeepSeek生成的题目在部分维度上获得了较低的评价。具体而言，与专家编写的A2型题目相比，DeepSeek生成的A2型题目在“临床场景现实性”上获得的评分显著更低。这意味着学员们认为AI生成的病例情景不如专家编写的那么真实、贴近临床实际。进一步的亚组分析发现，这种评分差异在临床经验更丰富的三年级住院医师中表现得更为明显。这或许是因为高年级学员拥有更多的临床实践经验，能更敏锐地察觉到题目情景中不符合现实逻辑的细节。

研究结论与讨论

本研究的核心结论是：DeepSeek大型语言模型在生成放射科住院医师培训考试试题方面展现出一定的潜力，其生成的题目在整体答题正确率上与专家编写题目相当，且难以被学员区分来源。这为AI辅助医学教育评估工具的开发提供了积极证据。

然而，研究也清晰地揭示了其当前局限性。DeepSeek在生成需要复杂临床情景的高阶推理题目（如A3/A4型）时，效果不如人类专家，这体现在更低的答题正确率上。同时，其生成的题目（特别是A2型）在临床现实性方面获得较低评价，尤其是在更有经验的学员眼中。这些不足可能源于模型训练数据中临床推理链条的复杂性、真实世界医学知识的深度整合不足，以及对细微临床语境理解的不充分。

综上所述，这项研究的意义在于，它首次对DeepSeek在特定医学专科（放射科）的高阶教育评估中的应用进行了实证评估。结果指出，类似DeepSeek的大型语言模型可以作为医学教育者的有力辅助工具，或许能高效生成用于基础知识点考查的题目，从而解放专家时间。但对于旨在评估临床决策、鉴别诊断等高阶能力的核心考试部分，目前仍需依赖人类专家的深度参与和审核。未来的研究方向可以集中在优化模型以生成更逼真的临床情景，以及探索“人机协同”的命题模式，将AI的效率与人类的临床智慧相结合，共同提升医学教育的质量与效率。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部