大型语言模型与医生生成回复在减重手术患者咨询中的对比研究：准确性及患者满意度评估

时间：2025年8月3日

来源：Obesity Surgery

编辑推荐：

本研究针对减重手术患者咨询中医疗资源紧张的问题，通过比较GPT-4o生成回复与医生传统回复的质量差异。研究人员收集200例真实患者问题，采用单盲随机对照设计，发现LLM（大型语言模型）回复速度更快（2.7 vs 87.2秒）、内容更详尽（607 vs 262字符），且患者满意度显著更高（64.9%偏好LLM回复）。该研究为AI辅助医疗沟通提供了实证依据，发表于《Obesity Surgery》。

在肥胖已成为全球健康危机的今天，减重手术被证明是严重肥胖患者最有效的治疗手段。然而术前后繁重的患者教育工作给医疗系统带来巨大压力——医生需要反复回答大量重复性问题，从"术后需要补充蛋白质多久"到"远端胃旁路术后体重反弹怎么办"，这些问题既消耗专业资源，又影响医患沟通效率。正是在这样的背景下，德国曼海姆大学医学院（University Medicine Mannheim, University of Heidelberg）的研究团队开展了一项开创性研究，探索大型语言模型（LLM）能否作为"智能助手"提升减重手术领域的医患沟通质量。

研究人员采用单盲随机对照设计，从患者支持群组、初诊和随访中收集200个真实问题，分别由GPT-4o和减重专家独立回答。关键技术包括：1）通过API调用GPT-4o生成德语回复；2）独立专家盲法评估回复质量；3）189名患者通过在线调查评价回复的清晰度、完整性和共情力。研究特别记录了医生直接回答与修正AI回复的时间成本差异。

研究结果呈现多重突破性发现：
《Generation of Quality of Responses》显示LLM生成速度比医生快32倍（2.7 vs 87.2秒），回复长度增加131%。值得注意的是，对于中低难度问题，LLM获得"完美评分"的比例显著高于医生（easy问题89.7% vs 61.9%）。

《Correction of Responses》揭示仅有6.5%的AI回复需要修正，且修正耗时多在1-3分钟内。一个关键发现是：医生修正自己原始回答的平均时间（77.8%在1分钟内）反而短于修正AI回复的时间，这提示AI初稿可能增加医生的工作负荷。

《Patient-Centered Evaluation》结果最具颠覆性：64.9%患者更偏好LLM回复，尤其在清晰度（4.8 vs 4.6）、完整性（4.5 vs 3.4）和共情力（4.1 vs 3.2）评分上显著领先。分层分析发现，女性（87.3%参与者）和教育程度较低群体对AI回复的接受度更高。

这项发表于《Obesity Surgery》的研究证实：在医生监督下，GPT-4o能生成更高效、更受患者欢迎的医疗咨询回复。其重要意义在于：1）为医疗资源优化提供新思路，AI可处理常规咨询，使医生专注复杂病例；2）揭示患者教育水平影响AI接受度的现象，提示个性化沟通策略的必要性；3）确立"AI初稿+医生审核"的混合模式在减重手术领域的可行性。正如作者强调的，这种模式既保留了人类专家的临床判断，又发挥了AI在标准化信息传递上的优势，为数字化医疗时代的高质量医患沟通树立了新范式。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部