背景:大型语言模型(Large Language Models, LLMs)在标准化医学基准测试中展现出卓越性能,但其在复杂外科决策中的潜力在很大程度上尚未明确。特别是关于临床医生与LLM协作的研究——即临床医生能在多大程度上有效识别并整合模型生成的推理过程—
广告
X
背景:大型语言模型(Large Language Models, LLMs)在标准化医学基准测试中展现出卓越性能,但其在复杂外科决策中的潜力在很大程度上尚未明确。特别是关于临床医生与LLM协作的研究——即临床医生能在多大程度上有效识别并整合模型生成的推理过程——仍是一个未解决的问题。为了解决这些空白,研究人员开发了一个双盲两阶段评估框架,旨在同时评估LLM的性能以及人与LLM在心脏外科领域的协作情况。
方法:由一组高级心脏外科医生独立开发了15个高保真度的心脏外科场景,每个场景均配有一个临床相关的开放式推理任务、专家策划的参考答案以及一个包含10个维度的加权评估框架。研究采用了多智能体(multi-agent)策略对五个代表性的LLM(O1、O3-mini-high、DeepSeek-R1、GPT-4和Llama3-OpenBioLLM-70B)进行提示。另一组高级外科医生进行了双盲两阶段评估,以评估模型表现和评估者判断的变化:第一轮中,他们独立对LLM进行评分;第二轮中,向他们展示参考答案并邀请其修改评分,修改与否由其自行决定。
结果:不同场景下LLM的表现各异,但其相对排名保持稳定。归一化得分中位数最高的是O1(0.896),其次是O3-mini-high(0.854)、DeepSeek-R1(0.792)、GPT-4(0.667)和Llama3-OpenBioLLM-70B(0.521)。在各评估维度中,场景理解得分最高(0.920),而患者安全(0.507)、幻觉避免(0.549)和临床效率(0.597)得分最低。第二轮归一化得分中,四个LLM有所下降,其中7.57%的评分从肯定修订为否定,仅有2.59%从否定修订为肯定。在五个权重最高的评估维度中,有10.16%的第二轮评分从肯定被修订为否定。
结论:经过推理优化的LLM优于所有其他模型。然而,所有模型均表现出临床局限性,包括在核心评估维度和需要复杂纵向推理任务的场景中表现不佳。过度接受是主要的协作失衡现象,反映出临床医生过度接受了那些看似临床合理但实则错误或具有潜在危害的模型推理。这些发现表明,由于性能局限性和人与LLM协作的失衡,这些LLM尚不能安全地应用于复杂的外科手术环境中。
论文解读:大型语言模型在复杂心脏外科手术中的双盲两阶段评估
研究背景与意义
大型语言模型(Large Language Models, LLMs)正在通过增强沟通、改善诊断和实现个性化决策支持来改变医疗保健领域。尽管早期模型表现不及全科医生,但前沿的LLM在诊断和分诊准确性上已达到甚至超越人类医生的水平。然而,将此类技术安全整合到临床实践中需要严格的验证和针对特定专业的评估。目前的LLM研究存在三个关键空白:首先,大多数研究依赖标准化医学考试或简化场景来评估一般知识,而非测试复杂的医学推理或细微的决策制定,导致对推理密集型领域的探索不足;其次,尽管较新的LLM(特别是经过推理优化的模型)声称改进了决策能力,但它们在复杂临床任务中的表现仍未得到检验;第三,以往的研究过度关注输出准确性,而对临床医生与LLM的交互关注有限,特别是协作是否会导致对LLM输出的利用不足,或未能检测到看似合理但具有临床意义的错误。
为了填补这些空白,研究人员专注于心脏外科这一LLM研究中最为复杂且未被充分探索的专业领域。与肿瘤学或内科学不同,心脏外科涉及高风险的、时间敏感的决定,需要整合动态生理学、多学科数据、长链推理以及罕见的专业语言。这使得它成为测试临床推理能力的理想环境。本研究在《Frontiers in Digital Health》发表,不仅评估了五种代表性LLM的输出质量,还通过引入新颖的双阶段评估框架,深入分析了评估者判断的演变,从而洞察了人与LLM的协作模式。