大型语言模型（LLM）生成的新生儿复苏模拟的可行性与挑战：一项多中心探索性研究

时间：2026年5月26日

来源：Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine

编辑推荐：

摘要背景基于模拟的培训（SBT）在新生儿复苏中具有积极的教育效果和新生儿预后改善作用。然而，实施设计良好的SBT对培训师提出了多方面的要求。大型语言模型（LLMs）在动态生成情境化的复苏场景方面可能具有潜力。但目前尚存在关于LLM生成的模拟场景在新生儿复苏中的可行性和挑战的疑问。

摘要

背景

基于模拟的培训（SBT）在新生儿复苏中具有积极的教育效果和新生儿预后改善作用。然而，实施设计良好的SBT对培训师提出了多方面的要求。大型语言模型（LLMs）在动态生成情境化的复苏场景方面可能具有潜力。但目前尚存在关于LLM生成的模拟场景在新生儿复苏中的可行性和挑战的疑问。

方法

这是一项前瞻性、多中心的研究，旨在评估LLM生成的模拟场景的可行性和挑战。通过ChatGPT-4o和DeepSeek-R1生成了四个场景，包括极早产儿、胎盘早剥、出生前到达医院以及羊水被胎粪污染的情况。同时从Neonatal Resuscitation Program®（NRP®）和RETAIN（一个严肃游戏平台）中提取了四个类似的场景。这16个场景均按照标准化模板编写、编码并随机化。来自5个中心的9位独立培训师在不知道场景来源（ChatGPT、DeepSeek、NRP®或RETAIN）的情况下，使用修改后的Jeffries模拟设计量表（JSDS）对场景的表现进行了评估。此外，还比较了四组之间的AI幻觉现象和定性评估结果。

结果

与NRP®场景相比，ChatGPT生成的场景在总体评估中表现出相当的中位分数，没有统计学上的显著差异；而DeepSeek和RETAIN在总体评估、问题解决效果和场景真实性方面得分较低。DeepSeek在提供适当信息方面的表现较差。在反馈设计方面，ChatGPT的得分高于NRP®（效应量 r = 0.25，P = 0.02）。两种LLM之间的AI幻觉现象没有统计学差异。ChatGPT在明确目标并提供结构化反馈框架方面表现出优势，但在持续提供动态生命体征数据方面存在不足。DeepSeek则出现了与NRP®算法不符的情况。