这项研究发表在国际知名期刊《npj Digital Medicine》上。研究人员设计了一项严谨的对照研究。他们让DeepSeek模型和放射学专家分别根据中国的教育标准,生成一系列用于放射科住院医师培训的单选题。这些题目涵盖了A1(单纯知识回忆型)、A2(简单应用型)、A3/A4(基于临床病例情景的高阶推理型)等常见类型。随后,研究人员从两个来源各随机选取14道题,混合组成一份共28题的在线测试。这份测试被发放给40名放射科住院医师(包括17名二年级和23名三年级学员)进行闭卷作答。参与者不仅需要回答每一道题,还需要猜测题目来源(是DeepSeek生成还是专家编写),并对每道题在感知难度、课程相关性、整体质量和临床现实性四个维度上进行评分。通过统计分析两组题目在答题正确率、来源识别准确率以及主观评分上的差异,来全面评判DeepSeek的命题能力。
然而,当研究人员对不同题目类型进行分层分析时,差异便显现出来。对于相对简单的A1型题目,住院医师对DeepSeek生成题和专家编写题的正确回答率相似。但是,对于更为复杂的A3/A4型题目(通常包含一个临床病例描述, followed by 多个相关问题),住院医师对DeepSeek生成题的正确回答率显著低于对专家编写题的正确回答率。这表明,在需要结合复杂临床情景进行高阶推理的题目上,DeepSeek目前的表现还不及人类专家。