人工智能驱动的SOAP医疗笔记生成：评估Whisper与ChatGPT集成在肝胆胰外科门诊中的效率与准确性

时间：2025年9月15日

来源：Endocrinología, Diabetes y Nutrición (English ed.)

编辑推荐：

本研究针对外科医生在电子健康记录(EHR)系统中文档记录负担过重的问题，探索了自动语音识别(ASR)系统Whisper与生成式预训练转换器(ChatGPT)的集成应用。研究团队在肝胆胰外科门诊环境中开展实证研究，结果显示AI系统生成SOAP笔记的时间仅需1.08分钟，相比传统记录的15.98分钟显著提升效率，且85%的AI生成笔记达到临床满意标准。这项研究为人工智能辅助临床文档工作流程优化提供了重要实证依据。

在当今医疗环境中，外科医生们正面临着一个普遍而棘手的难题：他们不得不将大量宝贵时间耗费在电子健康记录(EHR)系统的文档录入上，而不是专注于病患本身的诊疗工作。这种日益增长的行政负担不仅导致医生职业倦怠，更可能影响医疗质量和患者安全。在阿根廷的医疗体系中，这一问题尤为突出，研究表明全科医生的工作倦怠风险高达16.5%，特别是那些每周工作超过60小时的医生群体。

面对这一挑战，Rodrigo Antonio Gasque及其研究团队开展了一项创新性研究，探索人工智能技术如何改变这一现状。他们的研究成果发表在《Endocrinología, Diabetes y Nutrición (English ed.)》上，为人工智能在临床文档处理中的应用提供了重要见解。

研究团队采用了多种关键技术方法：使用智能手机录制门诊咨询音频并转换为mp3格式；利用Whisper-1自动语音识别系统进行语音转录；通过ChatGPT 3.5将转录文本组织成SOAP结构临床笔记；使用Python 3.11.6作为编码平台；采用Jiwer库基于Levenshtein距离算法评估转录质量；对20名首次就诊的肝胆胰疾病患者进行前瞻性数据收集。

3.1. 患者和基线特征

研究纳入了20名符合标准的患者，中位年龄47岁，女性占65%。患者教育水平分布为：45%完成初等教育，40%完成中等教育，15%完成高等教育。病种分布包括原发性肝肿瘤(35%)、继发性肝肿瘤(20%)、胆管肿瘤(15%)、胰腺肿瘤(15%)和胆管结石(15%)。咨询平均时长为15.98分钟，中位词汇量为1891.5个单词。

3.2. ASR和GPT性能

Whisper转录音频的中位时间为59.3秒，且咨询时间与处理时间呈正相关。在转录修订过程中，45%的案例需要删除词汇，中位删除161个字符和51.33个单词；另一组患者则需要添加内容，中位添加104.82个字符和23.82个单词。ChatGPT 3.5生成SOAP临床笔记仅需5.7秒。

性能评估指标显示：单词错误率(WER)为0.07，匹配错误率(MER)为0.06，单词信息丢失(WIL)为0.09，单词信息保留(WIP)为0.91，字符错误率(CER)为0.04。卡方检验显示ChatGPT性能存在显著差异(p=0.0017)，85%的案例(17/20)被评估为满意。

研究提供了一个SOAP笔记生成示例：主观部分(S)包含患者基本信息和病史；客观部分(O)记录体格检查发现；评估部分(A)包含影像学和实验室检查结果；计划部分(P)详细列出了后续诊疗方案。

研究结论表明，Whisper和ChatGPT的集成显著减少了文档记录时间，同时保持了可接受的准确性和连贯性。与传统EHR录入所需的15.98分钟相比，AI系统仅需1.08分钟即可完成转录和组织工作，这一时间上的大幅缩减为提高工作流程效率和增加医患直接互动时间提供了可能。

在讨论中，研究人员指出全球医疗需求日益增长背景下医生工作负担的重要性。过度工作量不仅导致医生职业倦怠，还影响患者护理质量、满意度和安全。研究表明，在门诊服务中，38.04%的医生时间用于非面对患者的行政任务，而外科住院医师每周花费约23.7小时进行EHR文档记录。

与历史数据相比，该研究显示的ASR错误率符合技术改进趋势——单词错误率从2000年代初的30%降至近年来的10%以下。在西班牙语环境中，Whisper的表现与基准数据基本一致。研究还讨论了AI技术在医学教育、 cochlear implant模拟和阿尔茨海默病检测等其他医疗领域的应用。

然而，研究也存在若干局限性：ChatGPT 3.5的弱监督训练方式可能导致"幻觉"现象；Whisper在多人对话、不熟悉口音或方言情况下性能可能下降；缺乏传统方法的对照组；单 reviewer验证可能引入偏倚；样本量较小且为任意分配；背景噪音可能影响音频质量；未使用更新的GPT-4.0模型；未进行正式成本效益分析或医生满意度调查。

未来研究需要探索ASR系统在西班牙语中的转录准确性，识别常见错误类型，并评估在不同患者群体和临床环境中的普适性。同时必须重视伦理考量，包括隐私风险、算法偏见、模型输出变异性和可能产生的错误信息。数据隐私是核心关切，需要严格遵守HIPAA等数据保护法规。复杂模型缺乏可解释性也引发了错误发生时的责任问题。

研究人员强调，如果AI系统在 biased或非代表性数据集上训练，可能会加剧现有的医疗不平等。人类监督对于确保安全至关重要，AI实施必须符合地方法规和法律标准。除了文档处理，AI聊天机器人还可以集成到更广泛的临床工作流程中，包括自动分诊、随访安排、决策支持系统和实时患者教育。

成功的实施取决于多个挑战的解决：保护数据隐私、管理AI生成错误的责任、减少对互联网连接的依赖以及建立清晰的监管框架。模型输出的可解释性和临床医生的必要参与仍然是保持信任和确保临床安全的关键。AI系统的持续发展必须伴随着对数字基础设施、专业培训以及反映每个卫生系统语言、临床和文化背景的稳健验证流程的投资。

这项研究为评估AI工具在门诊临床实践中的集成提供了一个实用框架，可被适应和扩展到未来的多中心试验中。后续研究应当包含更大的样本量、随机患者分配、盲法专家评估以及与标准文档方法的直接比较，以确认和扩展这些初步发现。

最终，自动语音识别系统(如Whisper)和语言模型(如ChatGPT)等人工智能技术的集成，在改变医疗保健领域临床文档流程方面展现出巨大潜力。这些技术进步为解决医生日益加重的工作负担提供了有希望的解决方案，这一重要问题与职业倦怠和患者护理质量受损密切相关。AI技术实现的行政负担减轻——如手动和自动转录过程之间的巨大时间差异所证明的——突显了它们提升整体医疗服务提供的潜力。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部