大型语言模型在复杂心脏外科手术中的双盲两阶段评估:特定任务表现与人与AI协作

时间:2026年5月30日
来源:Frontiers in Digital Health

编辑推荐:

背景:大型语言模型(Large Language Models, LLMs)在标准化医学基准测试中展现出卓越性能,但其在复杂外科决策中的潜力在很大程度上尚未明确。特别是关于临床医生与LLM协作的研究——即临床医生能在多大程度上有效识别并整合模型生成的推理过程—

广告
   X   

背景:大型语言模型(Large Language Models, LLMs)在标准化医学基准测试中展现出卓越性能,但其在复杂外科决策中的潜力在很大程度上尚未明确。特别是关于临床医生与LLM协作的研究——即临床医生能在多大程度上有效识别并整合模型生成的推理过程——仍是一个未解决的问题。为了解决这些空白,研究人员开发了一个双盲两阶段评估框架,旨在同时评估LLM的性能以及人与LLM在心脏外科领域的协作情况。 方法:由一组高级心脏外科医生独立开发了15个高保真度的心脏外科场景,每个场景均配有一个临床相关的开放式推理任务、专家策划的参考答案以及一个包含10个维度的加权评估框架。研究采用了多智能体(multi-agent)策略对五个代表性的LLM(O1、O3-mini-high、DeepSeek-R1、GPT-4和Llama3-OpenBioLLM-70B)进行提示。另一组高级外科医生进行了双盲两阶段评估,以评估模型表现和评估者判断的变化:第一轮中,他们独立对LLM进行评分;第二轮中,向他们展示参考答案并邀请其修改评分,修改与否由其自行决定。 结果:不同场景下LLM的表现各异,但其相对排名保持稳定。归一化得分中位数最高的是O1(0.896),其次是O3-mini-high(0.854)、DeepSeek-R1(0.792)、GPT-4(0.667)和Llama3-OpenBioLLM-70B(0.521)。在各评估维度中,场景理解得分最高(0.920),而患者安全(0.507)、幻觉避免(0.549)和临床效率(0.597)得分最低。第二轮归一化得分中,四个LLM有所下降,其中7.57%的评分从肯定修订为否定,仅有2.59%从否定修订为肯定。在五个权重最高的评估维度中,有10.16%的第二轮评分从肯定被修订为否定。 结论:经过推理优化的LLM优于所有其他模型。然而,所有模型均表现出临床局限性,包括在核心评估维度和需要复杂纵向推理任务的场景中表现不佳。过度接受是主要的协作失衡现象,反映出临床医生过度接受了那些看似临床合理但实则错误或具有潜在危害的模型推理。这些发现表明,由于性能局限性和人与LLM协作的失衡,这些LLM尚不能安全地应用于复杂的外科手术环境中。

论文解读:大型语言模型在复杂心脏外科手术中的双盲两阶段评估

研究背景与意义

大型语言模型(Large Language Models, LLMs)正在通过增强沟通、改善诊断和实现个性化决策支持来改变医疗保健领域。尽管早期模型表现不及全科医生,但前沿的LLM在诊断和分诊准确性上已达到甚至超越人类医生的水平。然而,将此类技术安全整合到临床实践中需要严格的验证和针对特定专业的评估。目前的LLM研究存在三个关键空白:首先,大多数研究依赖标准化医学考试或简化场景来评估一般知识,而非测试复杂的医学推理或细微的决策制定,导致对推理密集型领域的探索不足;其次,尽管较新的LLM(特别是经过推理优化的模型)声称改进了决策能力,但它们在复杂临床任务中的表现仍未得到检验;第三,以往的研究过度关注输出准确性,而对临床医生与LLM的交互关注有限,特别是协作是否会导致对LLM输出的利用不足,或未能检测到看似合理但具有临床意义的错误。
为了填补这些空白,研究人员专注于心脏外科这一LLM研究中最为复杂且未被充分探索的专业领域。与肿瘤学或内科学不同,心脏外科涉及高风险的、时间敏感的决定,需要整合动态生理学、多学科数据、长链推理以及罕见的专业语言。这使得它成为测试临床推理能力的理想环境。本研究在《Frontiers in Digital Health》发表,不仅评估了五种代表性LLM的输出质量,还通过引入新颖的双阶段评估框架,深入分析了评估者判断的演变,从而洞察了人与LLM的协作模式。

关键技术方法

该研究采用双盲两阶段评估设计。八位获得委员会认证的高级心脏外科医生参与研究,其中三位负责开发临床场景和评估框架,五位作为盲法评估者。研究人员构建了15个受真实临床案例启发的高保真度心脏外科场景,涵盖了血流动力学解读、药物或手术规划、围手术期并发症管理及高级医疗计算等多个决策领域。每个场景均配有开放式临床问题和参考答案。
评估框架包含十个加权评估维度,采用是/否(Yes/No)评分并进行归一化处理。研究选取了五种具有代表性的LLM进行评估,包括专有的推理优化模型(O1, O3-mini-high)、专有通用模型(GPT-4)、生物医学调优模型(Llama3-OpenBioLLM-70B)以及开源推理优化模型(DeepSeek-R1)。为生成响应,研究采用了多智能体提示策略(multi-agent prompting strategy),即先生成三个独立的种子响应,再由同一个模型将其合成为最终答案。统计分析方面,使用了Fleiss' kappa统计量评估评估者间一致性,使用Wilcoxon检验进行模型间比较,并使用McNemar检验分析信任校准指标。

研究结果

3.1 评估者间一致性
研究初期,五位评估者之间的初始一致性有限(Fleiss' κ= 0.0834)。在第二轮结合了参考答案进行审查后,一致性有所提高(κ= 0.1298)。这表明参考答案有助于重新调整判断并增强一致性,同时并未消除独立的推理能力。这种较低的一致性在复杂的开放式临床推理评估中是预期的,因为多种管理策略在临床实践中均可被视为合理。
3.2 总体模型表现
基于综合了评估者判断与参考答案的第二轮评分,各模型的归一化得分中位数从高到低依次为:O1 [0.896]、O3-mini-high [0.854]、DeepSeek-R1 [0.792]、GPT-4 [0.667] 和 Llama3-OpenBioLLM-70B [0.521]。统计比较显示,推理优化模型O1显著优于非推理模型GPT-4(+0.106);在启用推理的模型中,专有的O1略优于开源的DeepSeek-R1(+0.049);而在非推理模型中,GPT-4显著优于Llama3-OpenBioLLM-70B(+0.140)。
3.3 LLM在评估维度和临床场景中的表现
在十个评估维度中,场景理解得分最高(0.920),而患者安全(0.507)、幻觉避免(0.549)和临床效率(0.597)则显示出显著的弱点。O1在其中八个维度中排名第一。尽管绝对分数有所不同,但各模型在评估维度层面的排名是一致的(Kendall's W= 0.789),表明它们存在共同的优势和劣势模式。在不同临床场景中,O1总体排名最高,在15个场景中的7个里取得了最高分,表现出较强的稳定性。相比之下,Llama3-OpenBioLLM-70B表现持续不佳。场景12和13的平均得分最高,而场景7和8最低,这凸显了场景复杂性对模型表现的影响。
3.4 人与LLM协作中的信任校准模式
通过分析两轮之间的评分变化来量化协作情况。总体过度接受率(肯定转为否定)为7.57%,而认识不足率(否定转为肯定)仅为2.59%,净信任校准差距为+4.98%。这证实了过度接受是协作失败的主要模式,即专家最初认可了那些看似临床合理但实则存在缺陷的LLM推理。在第二轮中,五个LLM中有四个的归一化得分出现下降,其中Llama3-OpenBioLLM-70B降幅最大(-0.146)。在所有评估维度中,患者安全和幻觉避免的变化率最高(均为14.86%),而场景理解的变化率最低(0.81%)。在安全关键领域,过度接受率是认识不足率的近三倍,产生的净信任校准差距达+6.48%。

讨论与结论总结

4.1 关键发现与启示概述
在患者安全限制下,直接在手术室等高压力环境中评估LLM是不切实际的。通过专家设计的临床场景模拟现实世界的复杂性,同时避免模型预接触,是一种经过验证的方法。研究发现,LLM在标准化考试中的强劲表现并不能确保其在复杂、高风险的临床决策中安全可靠地应用。虽然推理优化模型总体表现更好,开源模型也在向专有系统靠拢,但即使是表现最好的模型也存在关键局限性。值得注意的是,经验丰富的外科医生往往在初看之下无法识别出LLM的错误,这不仅反映了模型产生看似合理实则误导人的输出的可能性,也揭示了无辅助的初步评估的局限性。这突显了在心脏外科使用LLM时,人与LLM协作中普遍存在的过度接受模式。
4.2 推理优化模型表现更佳,但在安全性和可靠性上均显不足
在评估的五个模型中,O1总体表现最佳,推理优化模型(O1, O3-mini-high, DeepSeek-R1)表现出更稳定的性能,这可能归功于思维链(chain-of-thought)提示和监督多步路径,促进了逻辑连贯性并减少了过度自信的错误。相比之下,未进行推理优化的GPT-4的回答往往过于笼统,不适合复杂的手术环境。尽管Llama3-OpenBioLLM-70B经过了生物医学调优,但由于缺乏嵌入式推理,其输出往往缺乏准确性和任务相关性。即使是最好的O1,在患者安全和幻觉避免等核心维度上也表现出明显的缺陷,表明其尚不足以独立用于复杂的外科决策。
4.3 LLM在结构化临床知识之外的挣扎
LLM在处理线性、基于指南的任务时表现良好,但在需要纵向、容忍不确定性的推理场景中却表现不佳。例如,在涉及Fontan手术后血流动力学恶化的复杂病理生理过程中,模型难以整合动态变量和纵向推理。此外,某些特定任务类型,如需要精确定量推理和设备特定参数的二尖瓣成形术瓣环尺寸预测,也对LLM构成了挑战,这种困难并未完全体现在临床复杂性分析中。总体而言,LLM在基于指南的结构化场景中比在抽象或变量密集的临床环境中泛化得更好。
4.4 两轮评估揭示人与LLM协作的失衡
将人工智能整合到心脏外科预计将使外科医生从直接操作者转变为监督者,这引发了他们能否有效评估和利用LLM输出的问题。两轮评估揭示了三种协作模式:因低估合理反应导致的评分上升(认识不足)、因未发现看似合理实则错误的输出导致的评分下降(过度接受)、以及评分不变。结果显示,过度接受是主导模式。净信任校准差距在整体上为+4.98%,在安全关键领域更是扩大至+6.48%。这种过度接受可能反映了一种更广泛的认知机制:当LLM输出显得流畅且结构严谨时,用户容易从主动推理转向被动利用,过早地接受建议而不进行批判性评估。
5 结论
推理优化的大型语言模型在复杂的心脏外科场景中优于同类模型,但在关键的安全相关维度上仍以不可接受的速率失败。虽然LLM能很好地处理线性的、基于指南的任务,但在需要纵向、容忍不确定性推理的场景中表现挣扎。至关重要的是,最大的风险可能不在于模型错在哪里,而在于它们犯错时的合理性。信任校准分析显示,过度接受而非认识不足是人与AI协作失败的主导模式,在五个权重最高、安全关键的评估维度中,错误校准率几乎增加了两倍。未来的LLM不仅要评估输出准确性,还要评估它们如何影响人与LLM的协作,因为临床影响不仅取决于信息,还取决于交互。诸如二次审查、特定任务限制、界面级策略(如不确定性标记、事实性评分)和检索增强生成方法等保障措施,可以通过提高事实准确性和实现透明验证来改善人与LLM的协作。

生物通微信公众号
微信
新浪微博


生物通 版权所有