基于深度语言学习模型的外科病史采集模拟工具对医学生临床技能的提升作用：一项随机对照试验

时间：2025年8月2日

来源：The Journal of Supercritical Fluids

编辑推荐：

为解决外科医学生病史采集技能培训资源不足的问题，研究人员开展了一项随机对照试验，评估深度语言学习模型(DLM)作为模拟患者(SP)在临床教学中的应用效果。研究显示干预组学生OSCE成绩显著提升(p<0.001)，57%学生表示沟通信心增强，95%愿意再次使用该工具，证实AI可成为临床教育的有效辅助手段。

在外科医学教育领域，病史采集作为医患沟通的核心技能，其培训长期面临资源投入大、标准化程度低的困境。传统模拟患者(Simulated Patient, SP)培训需要大量人力物力，而临床轮转中真实患者的不可控性又使学习效果参差不齐。随着ChatGPT等深度语言学习模型(Deep Language Model, DLM)的崛起，爱尔兰都柏林大学学院(University College Dublin, UCD)外科与外科专科系的研究团队创新性地将人工智能技术引入医学教育，通过随机对照试验验证了DLM作为SP在外科病史采集教学中的有效性，相关成果发表在《The Journal of Supercritical Fluids》。

研究采用三阶段设计：首先通过焦点小组确定DLM应用场景，随后开展包含90名医学生的随机对照试验（干预组45人使用ChatGPT进行3次标准化病史采集训练，对照组45人常规学习），最终通过OSCE客观结构化临床考试和问卷调查评估效果。关键技术包括：基于ChatGPT的DLM-SP交互系统开发、双盲OSCE评估（采用50分制本地化评分量表）、以及包含Likert量表的混合方法学评估。

【METHODOLOGY】

研究团队设计了三类外科典型病例（直肠癌、胰腺癌和贲门失弛缓症）的DLM模拟场景。干预组学生通过特定指令（如"模拟60岁女性公交车司机直肠癌症状"）与ChatGPT互动，每次5分钟，对话文本经外科讲师审核内容准确性。基线及干预后均采用标准化OSCE评估，由不知分组情况的考官使用验证过的评分量表（含内容完整性和沟通流程等维度）进行评价。

【RESULTS】

数据表明：1）干预组OSCE成绩从基线61.7分(C+级)提升至67.2分(B级)，效应量0.37，显著高于对照组的0.19(p<0.001)；2）62%的干预组学生完成随访调查，57%报告信心提升，72%赞赏DLM病史细节丰富度，95%表示会再次使用；3）DLM生成内容均未出现医学事实错误，但存在未提示的青霉素过敏等"幻觉"案例。

【DISCUSSION】

这项研究首次证实DLM可有效提升外科病史采集技能，其优势在于：1）提供标准化且低成本（无需订阅费）的训练场景；2）通过RLHF（人类反馈强化学习）实现个性化互动；3）弥补传统SP资源限制。但需注意AI的碳足迹问题——据国际能源署数据，GPT-3训练耗电相当于500吨碳排放。研究局限性包括仅测试ChatGPT单模型、短期效果评估等。未来可探索DLM在医患共情等复杂沟通场景的应用，建议结合临床导师指导形成混合教学模式。

该研究为AI辅助医学教育提供了循证依据，证实DLM可作为临床能力培养的安全补充工具。随着自然语言处理(NLP)技术进步，这类可扩展、自适应的学习系统有望重塑21世纪医学人才培养范式。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部