语境匹配非推理:生成式语言模型临床评估中关键假设的验证与反思

时间:2025年12月29日
来源:npj Digital Medicine

编辑推荐:

本刊编辑推荐:为解决生成式语言模型(GLMs)在临床多项选择题(MCQA)评估中性能是否真实反映其推理能力的问题,研究人员开展了关于语境匹配与推理能力差异的主题研究。结果表明,GLMs(尤其是小模型)严重依赖答案记忆而非知识应用,且在语义一致性问题和无答案场景下表现不佳,这对MCQA基准的效度提出了挑战,并为设计更鲁棒的临床评估方法提供了重要启示。

广告
   X   

在人工智能席卷医疗领域的浪潮中,生成式语言模型(GLMs)因其在各类医学知识问答中的卓越表现而备受瞩目。尤其是在美国医师执照考试(USMLE)、MedQA等多项选择题(MCQA)基准测试中,一些大型模型的得分甚至超过了人类考生的及格线。这不禁让人遐想,AI是否已经具备了堪比人类医生的临床推理能力?然而,一片喝彩之下,潜藏着深刻的隐忧:这些在封闭选项中选出正确答案的模型,是真的像人类一样运用知识进行逻辑推理,还是仅仅依靠对海量训练数据的记忆和统计模式匹配来“蒙对”答案?这种性能能否推广到真实世界复杂、多变且充满不确定性的临床场景?
当前基于MCQA的评估方法建立在几个关键假设之上:首先,模型答对题目意味着它掌握并应用了相关知识,而非简单记忆;其次,只要语义不变,问题的不同表述方式应导致相同的答案;最后,当没有正确选项时,模型应能识别并拒绝选择。但这些假设对于数据驱动的GLMs是否成立,却鲜有系统性的验证。鉴于GLMs(尤其是参数规模较小的模型SLMs)和多智能体系统在临床应用中前景广阔,但其训练数据可能存在污染(即基准测试题可能已被纳入训练集),厘清其真实能力边界变得至关重要。发表在《npj Digital Medicine》的这项研究,正是通过一系列精巧的实验设计,对支撑MCQA评估泛化性的这些基本假设进行了严厉的“压力测试”。
为了回答上述问题,研究人员设计了三项核心实验来系统性评估GLMs的答案一致性。他们选取了八个具有代表性的GLMs,包括五个具备推理能力(如GPT-OSS-120B、DeepSeek-R1-Llama-70B)和三个非推理基础模型(如LLaMA-3.3-70B-Instruct),在六个主流临床MCQA基准(如MMLU、MedQA、MedMCQA)上展开测试。研究首先确定了各模型在这些基准上的基线准确率。随后,他们从所有模型都能正确回答的题目中抽样,构成了一个难度可控的“共识”题目子集,并在此基础上进行三种情境的提示词扰动实验。
主要关键技术方法
本研究的关键技术方法包括:1) 模型与数据集选择:选取了8个不同参数规模和是否具备推理能力的GLMs,在6个公开临床MCQA基准上评估其基线性能;2) 实验设计:通过三种提示词扰动(选项重排、问题转述为判断句、移除正确答案)来模拟三种假设失效的情境,并分别考察在提供完整上下文与遮蔽上下文条件下的模型表现;3) 评估与统计分析:采用多数投票法确定模型最终答案,使用非参数统计方法(如Wilcoxon符号秩检验、Bootstrap重采样)比较不同实验设置下答案一致性的变化,并分析其与模型基线性能、参数规模、推理能力等因素的关系。
结果
Setting 1: 扩展选项空间下的数据泄露/记忆测试
研究者首先打乱了原始题目的选项顺序,并进一步将选项从通常的4-5个扩展到26个(A-Z),以检验模型是否依赖于对特定选项位置或有限选项集的记忆。结果发现,大型模型在选项重排后普遍能保持较高的一致性,尽管扩展到26个选项会导致一致性轻微下降。然而,小型模型(SLMs)的表现则大相径庭,无论是在原始选项还是扩展选项空间中,其答案一致性都出现了显著下降。这表明小型模型在很大程度上依赖于对训练数据中特定题目-答案配对的记忆,而非动态地应用知识来解决问题。当熟悉的选项语境被改变时,它们便无法可靠地给出正确答案。
Setting 2: 句法扰动下的答案一致性及上下文线索移除
第二个实验将MCQA问题转化为判断句。例如,不是问“以下哪种药物最有效?A. X, B. Y, C. Z”,而是直接陈述“药物X是本题最有效的治疗选择。请判断对错。”同时,研究者还设置了“上下文遮蔽”条件,即在提示词中只呈现需要判断的选项本身,而不提供其他干扰项。结果显示,大多数大型模型和一个小型推理模型(R1-LLaMA-8B)在识别“真理”(即正确选项对应的判断句)时,即使句法改变,也能保持相对较好的一致性。但GPT-OSS系列模型和部分小型模型则出现了严重的一致性丧失。在识别“谬误”(即错误选项对应的判断句)时,所有小型模型都表现不佳。更重要的是,移除其他选项的上下文线索(即遮蔽条件)对大多数模型的答案一致性产生了显著的负面影响,这揭示了模型对MCQA格式所提供的隐含线索(如通过对比选项来获得提示)存在依赖。
Setting 3: 统计偏好阳性答案匹配及提示词隐含语境的丧失
第三个实验旨在测试模型在无正确答案情况下的表现。研究者将原始的正确选项替换为“E. 以上都不是”,或者更极端地,直接移除该选项,并在指令中要求模型“如果选项都不正确,请回答‘无’”。结果令人担忧:所有模型,无论大小,都表现出强烈倾向于从现有选项中选择一个,即使明确告知“无正确答案”或提供“以上都不是”的选项,其拒绝选择的一致性也极低。当仅通过指令提示时,不一致性进一步加剧。这表明GLMs存在一种强大的“选择偏见”,难以在临床评估中可靠地识别信息不足或选项错误的情境,这在真实临床决策中可能带来风险。
推理能力与上下文依赖的交互影响
研究还特别比较了推理模型与其对应的非推理基础模型在不同情境下的表现。总体而言,增加推理能力有助于提高答案一致性,但这种益处并非绝对。对于某些小型模型或在特定实验设置(如Setting 2和3)下,当上下文被遮蔽时,推理过程反而可能损害一致性。研究者推测,推理模型内在的思维链(Chain-of-Thought)过程可能作为一种统计先验,在上下文线索缺失时放大了不一致性。
性能与不一致性的关系
分析表明,模型在基准测试上的基线准确率与其在扰动实验中的答案一致性呈弱正相关。然而,上下文遮蔽或混淆所导致的不一致性程度,与模型的基线性能无关,而是更可能取决于模型具体的训练策略。这意味着,仅仅提高基准测试分数并不一定能保证模型在真实世界复杂语境下的鲁棒性。
结论与讨论
这项研究有力地挑战了将MCQA基准直接等同于GLMs临床推理能力评估的金标准这一普遍做法。实验结果表明,GLMs,特别是小型模型,在MCQA中的优异表现可能很大程度上源于对基准数据的记忆(语境匹配),而非真正的知识应用和推理。它们对MCQA格式提供的有限选项空间和上下文线索存在显著依赖,并且在面对无正确答案的“未知”情境时表现出严重的缺陷。
这些发现对临床AI评估具有重要意义。它提示我们,当前报道的GLMs在医学考试中的高分可能在一定程度上高估了其实际临床问题解决能力。对于日益受到关注的小型语言模型(SLMs)和多智能体系统,基于MCQA的评估尤其需要谨慎对待,因为其泛化性可能更弱。
为了构建更鲁棒、更能反映真实世界条件的临床评估体系,研究者提出了若干建议。对于模型开发,可以考虑在训练过程中引入自动生成的、各种句法和选项结构的扰动数据,以“迫使”模型学习应用知识而非记忆捷径。对于评估方法本身,则可以引入更具迷惑性的干扰项、使用同义词替换临床实体、对问题表述进行多种句法变换并计算加权准确率,以及明确测量模型在包含“无答案”情境下的幻觉率。一个更具前景的方向是利用本地电子健康记录(EHR)数据构建评估案例,这既能更好地反映本地化性能,又能有效避免基于记忆的作弊。
总之,本研究敲响了警钟:语境匹配不等于推理。在将GLMs推向临床应用的征程中,我们必须超越简单的多项选择题得分,开发更能检验其知识应用能力和在复杂、开放世界中推理忠实性的评估范式。这项研究为未来更可靠、更有效的临床AI评估奠定了重要的批判性基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有