ChatGPT-4.0在巴西国家医学考试中的表现超越医学生：跨版本性能比较与医学教育革命

时间：2025年6月6日

来源：JMIR AI

编辑推荐：

本研究针对人工智能在医学教育中的应用瓶颈，通过横断面问卷设计比较了ChatGPT-3.5与4.0版本在巴西医学进展测试（PT）中的表现。结果显示GPT-4.0平均准确率达87.2%，较GPT-3.5提升27.4%，且在基础科学（96.2% vs 77.5%）和妇产科（94.8% vs 64.5%）领域表现尤为突出，显著超越各年级医学生水平（49.7%-60%）。该研究为AI辅助医学教育提供了实证依据，预示医疗知识获取方式的范式转变。

医学教育的AI革命：当ChatGPT-4.0在巴西国考中碾压人类考生

在医疗领域，人工智能正以惊人的速度重塑知识获取方式。OpenAI推出的ChatGPT系列已展现出通过美国医师执照考试(USMLE)的潜力，但对其在非英语医学体系中的表现仍存疑问。尤其像巴西这类医疗教育资源分布不均的国家，AI能否成为均衡教育质量的"平衡器"？更关键的是，新一代GPT-4.0相较前代究竟带来多大提升？这些问题直接关系到全球医学教育改革的战略方向。

为解答这些疑问，来自日本岛根大学的研究团队开展了一项开创性研究。他们选取巴西医学进展测试(PT)这一覆盖5万余名医学生的国家级考试作为试金石，采用横断面观察设计，将333道纯文本选择题分别输入GPT-3.5和4.0系统。为确保公平性，研究者排除了含图像的题目，并采用单次会话模式避免记忆偏差。通过非参数Wilcoxon检验和Bonferroni校正等统计方法，系统评估了AI在不同学科领域的表现差异。

方法精要
研究团队从2021-2023年PT考试中筛选333道有效题目，涵盖外科、基础科学等6大学科。采用人工逐题输入方式，在清除历史记录的条件下分别测试GPT-3.5和4.0版本。对AI的多选响应采用"最正确答案"追问策略，最终结果与ABEM公布的5万余名医学生平均成绩对比。数据分析使用SPSS 29.0，统计显著性设定为P<0.05。

结果揭示

主要发现
GPT-4.0展现出压倒性优势：总体准确率87.2% vs 3.5版的68.4%（P=0.03），相对提升达27.4%。尽管经多重检验校正后仅基础科学(P=0.004)和妇产科(P=0.002)保持显著差异，但所有学科均呈现≥10%的绝对提升。

学科差异
基础科学成为AI的"最强项"：GPT-4.0取得96.2%的惊人准确率，较人类医学生(54.8%)高出41.4个百分点。妇产科领域更出现46.9%的相对提升，展现AI在专科知识上的突飞猛进。

时间维度
2021-2023年数据显示，GPT-4.0保持稳定优异表现（86.4%-87.8%），而同期医学生平均成绩在45%-57.4%间波动。六年级医学生最佳成绩(66.3%)仍落后GPT-4.0约21个百分点。

典型例题分析
在妇产科题目中，GPT-4.0准确识别"促卵泡激素(FSH)和黄体生成素(LH)诱导排卵"的生理机制，而3.5版则混淆了雌激素的作用环节，凸显新版本在医学逻辑推理上的进步。

讨论与展望
这项发表在《JMIR AI》的研究证实，GPT-4.0已具备超越临床前医学生的知识整合能力。其表现与全球45项研究的元分析结论一致，验证了LLM在非英语医疗体系中的适用性。但研究者也警示：AI的"幻觉现象"(hallucination)可能产生看似合理实则错误的解释，这要求医学教育者必须建立新的验证机制。

从更广视角看，该研究预示三大变革：首先，医学课程需重构，将AI作为"超级助教"纳入教学体系；其次，临床思维培养应转向AI工具批判性使用等高阶能力；最后，医疗监管面临新挑战，需建立AI输出的伦理审查框架。正如研究者强调，未来的优秀医生将是那些能"与AI共舞"的实践者——既善用算法优势，又保有医疗直觉和人文关怀的不可替代价值。

这项研究也存在若干局限：PT考试的参与偏差、AI训练数据截止2021年的时效性问题等。但毋庸置疑，GPT-4.0在巴西国考中的惊艳表现，已然为医学教育革命按下了加速键。当AI能够稳定输出优于六年级医学生的知识判断时，医疗人才培养范式转型的时刻，或许比预期来得更早。