ChatGPT-4.0在巴西国家医学考试中的表现超越医学生:跨版本性能比较与医学教育革命

时间:2025年6月6日
来源:JMIR AI

编辑推荐:

本研究针对人工智能在医学教育中的应用瓶颈,通过横断面问卷设计比较了ChatGPT-3.5与4.0版本在巴西医学进展测试(PT)中的表现。结果显示GPT-4.0平均准确率达87.2%,较GPT-3.5提升27.4%,且在基础科学(96.2% vs 77.5%)和妇产科(94.8% vs 64.5%)领域表现尤为突出,显著超越各年级医学生水平(49.7%-60%)。该研究为AI辅助医学教育提供了实证依据,预示医疗知识获取方式的范式转变。

广告
   X   

医学教育的AI革命:当ChatGPT-4.0在巴西国考中碾压人类考生

在医疗领域,人工智能正以惊人的速度重塑知识获取方式。OpenAI推出的ChatGPT系列已展现出通过美国医师执照考试(USMLE)的潜力,但对其在非英语医学体系中的表现仍存疑问。尤其像巴西这类医疗教育资源分布不均的国家,AI能否成为均衡教育质量的"平衡器"?更关键的是,新一代GPT-4.0相较前代究竟带来多大提升?这些问题直接关系到全球医学教育改革的战略方向。

为解答这些疑问,来自日本岛根大学的研究团队开展了一项开创性研究。他们选取巴西医学进展测试(PT)这一覆盖5万余名医学生的国家级考试作为试金石,采用横断面观察设计,将333道纯文本选择题分别输入GPT-3.5和4.0系统。为确保公平性,研究者排除了含图像的题目,并采用单次会话模式避免记忆偏差。通过非参数Wilcoxon检验和Bonferroni校正等统计方法,系统评估了AI在不同学科领域的表现差异。

方法精要
研究团队从2021-2023年PT考试中筛选333道有效题目,涵盖外科、基础科学等6大学科。采用人工逐题输入方式,在清除历史记录的条件下分别测试GPT-3.5和4.0版本。对AI的多选响应采用"最正确答案"追问策略,最终结果与ABEM公布的5万余名医学生平均成绩对比。数据分析使用SPSS 29.0,统计显著性设定为P<0.05。

结果揭示

主要发现
GPT-4.0展现出压倒性优势:总体准确率87.2% vs 3.5版的68.4%(P=0.03),相对提升达27.4%。尽管经多重检验校正后仅基础科学(P=0.004)和妇产科(P=0.002)保持显著差异,但所有学科均呈现≥10%的绝对提升。

学科差异
基础科学成为AI的"最强项":GPT-4.0取得96.2%的惊人准确率,较人类医学生(54.8%)高出41.4个百分点。妇产科领域更出现46.9%的相对提升,展现AI在专科知识上的突飞猛进。

时间维度
2021-2023年数据显示,GPT-4.0保持稳定优异表现(86.4%-87.8%),而同期医学生平均成绩在45%-57.4%间波动。六年级医学生最佳成绩(66.3%)仍落后GPT-4.0约21个百分点。

典型例题分析
在妇产科题目中,GPT-4.0准确识别"促卵泡激素(FSH)和黄体生成素(LH)诱导排卵"的生理机制,而3.5版则混淆了雌激素的作用环节,凸显新版本在医学逻辑推理上的进步。

讨论与展望
这项发表在《JMIR AI》的研究证实,GPT-4.0已具备超越临床前医学生的知识整合能力。其表现与全球45项研究的元分析结论一致,验证了LLM在非英语医疗体系中的适用性。但研究者也警示:AI的"幻觉现象"(hallucination)可能产生看似合理实则错误的解释,这要求医学教育者必须建立新的验证机制。

从更广视角看,该研究预示三大变革:首先,医学课程需重构,将AI作为"超级助教"纳入教学体系;其次,临床思维培养应转向AI工具批判性使用等高阶能力;最后,医疗监管面临新挑战,需建立AI输出的伦理审查框架。正如研究者强调,未来的优秀医生将是那些能"与AI共舞"的实践者——既善用算法优势,又保有医疗直觉和人文关怀的不可替代价值。

这项研究也存在若干局限:PT考试的参与偏差、AI训练数据截止2021年的时效性问题等。但毋庸置疑,GPT-4.0在巴西国考中的惊艳表现,已然为医学教育革命按下了加速键。当AI能够稳定输出优于六年级医学生的知识判断时,医疗人才培养范式转型的时刻,或许比预期来得更早。

生物通微信公众号
微信
新浪微博


生物通 版权所有