摘要:尽管专用临床人工智能(Artificial Intelligence, AI)工具已进入医疗实践,但其独立评估仍十分匮乏。研究人员对两款基于大语言模型(Large Language Model, LLM)构建的专用临床AI工具——OpenEvidence
广告
X
摘要:尽管专用临床人工智能(Artificial Intelligence, AI)工具已进入医疗实践,但其独立评估仍十分匮乏。研究人员对两款基于大语言模型(Large Language Model, LLM)构建的专用临床AI工具——OpenEvidence和UpToDate Expert AI,与三款前沿LLM(GPT-5.2、Gemini 3.1 Pro及Claude Opus 4.6)进行了定量评估。评估分三个阶段:(1)500道测试医学知识的MedQA(US Medical Licensing Examination-style questions)题;(2)500项衡量与临床医师一致性的HealthBench条目;(3)真实临床查询(Real Clinical Queries, RCQ)基准——源自临床医生在真实临床环境中向通用LLM提出的100条去标识化查询。针对RCQ基准,12名美国临床医师对模型输出进行随机盲法评审,产生1,800组模型–问题标注。结果显示,前沿LLM在三项评估中均优于专用临床AI工具;在RCQ上,专用临床AI工具的表现与自动启用的Google Search AI Overview相当。上述发现强调了AI工具进入临床环境前需接受独立、真实世界评估的必要性。
论文解读:通用大语言模型在临床医学基准测试中优于专用临床人工智能(AI)工具
本文发表于《Nature Medicine》。目前,专用临床人工智能(Artificial Intelligence, AI)工具(如OpenEvidence、UpToDate Expert AI)依托大语言模型(Large Language Model, LLM)并声称通过领域特定训练或检索增强生成(Retrieval-Augmented Generation, RAG)可获得优于通用前沿LLM的临床表现,但其架构、基模及训练管线均不公开,临床医生及医疗机构需在缺乏独立循证依据的情况下判断其价值与安全性。相反,通用前沿LLM凭借海量预训练语料及深度对齐(alignment),可能无需领域特化即可胜任临床任务。为验证此假设,研究人员开展了一项独立、定量的头对头比较研究,对比两款专用临床AI工具与三款前沿通用LLM在医学知识、专家一致性及真实临床使用三个维度上的表现,并引入日常临床医生常接触的Google Search AI Overview作为对照。研究得出结论:前沿通用LLM在全部评估中显著优于专用临床AI工具,后者表现仅等同于普通搜索引擎的AI概览功能;这提示在现阶段,规模效应、跨域推理及通用对齐对医学通用能力的贡献超过简单的领域微调或RAG,临床AI工具进入实践前须经过真实世界独立评估。
主要关键技术方法:
研究人员构建了三级评估框架:①从MedQA数据集中随机抽取500道美国医师执照考试(US Medical Licensing Examination, USMLE)风格多选题评估医学知识;②选取HealthBench的500个单轮提示,由多模型裁判团(Claude Opus 4.6、Gemini 3.1 Pro Preview、GPT-5.2)评分以评估与临床专家的一致性;③从NYU Langone Health符合《健康保险流通与责任法案(Health Insurance Portability and Accountability Act, HIPAA)》规范的GPT实例中采样100条去标识化的临床医生真实查询构建真实临床查询(Real Clinical Queries, RCQ)基准。前沿LLM通过API调用(温度设0.0,固定种子62,开启搜索工具),专用临床AI工具通过浏览器界面手动查询。RCQ阶段由12名对美国临床医师对每对模型–响应进行随机盲法评分(临床正确性、完整性、安全性/避害、清晰度,1–4分),每位问题–模型对被3名评审员评价,并标记有害内容及幻觉,经排除拒绝回答(refusal)项后共1,704条评分纳入分析。统计方法包括McNemar检验、Wilcoxon符号秩检验、Friedman检验及Nemenyi事后检验等。
Main(正文结果部分)
MedQA准确性(图2a):
前沿LLM在500道MedQA题目上准确率均高于专用临床AI工具。Gemini 3.1 Pro最高(97.4%,95% CI 95.6%–98.5%),其次GPT-5.2(94.2%,91.8%–95.9%)和Claude Opus 4.6(90.2%,87.3%–92.5%)。OpenEvidence为89.6%(86.6%–92.0%),UpToDate Expert AI为88.4%(85.3%–90.9%)。Gemini显著优于其余所有模型(McNemar P<1×10−4vs OpenEvidence、UpToDate及Claude;P=0.02 vs GPT),GPT显著优于OpenEvidence(P=0.008)、UpToDate(P=0.0004)及Claude(P=0.04)。结论:通用前沿LLM的医学知识掌握度超越专用临床AI工具。
HealthBench评分(图2b):
HealthBench由LLM裁判团按Rubric打分(0–100分)。GPT-5.2得分最高(88.0,95% CI 85.9–90.1),其次Gemini(79.3,76.6–81.9)和Claude(77.0,74.2–79.9)。OpenEvidence(62.6,59.3–65.9)与UpToDate(61.3,58.0–64.6)显著更低且彼此无差异(P=0.6)。GPT优于所有其他模型(Wilcoxon P<10−9)。主题层面分析中,GPT在7个类别中排第一或并列第一,专用临床AI工具在全部7类中排最低或并列最低,其中6类与GPT差异显著(P≤0.004;不确定情境下回应例外P=1.00)。结论:前沿LLM——尤GPT-5.2——与临床专家评判的一致性远高于专用临床AI工具。
真实临床查询(RCQ)评价(图2c–g):
六款模型整体差异显著(Friedman P<10−9),呈两层分级:第一层为前沿LLM——Gemini(均值3.62,95% CI 3.56–3.68)、GPT-5.2(3.54,3.47–3.61)、Claude Opus 4.6(3.52,3.44–3.59),三者间无显著差异;第二层为专用临床AI工具和Google Search AI Overview——OpenEvidence(3.24,3.17–3.32)、Google AI Overview(3.27,3.18–3.35)、UpToDate AI(3.17,3.09–3.25),层内无显著差异。所有显著两两比较均在层间(rank-biserial r=0.5–0.9),即前沿模型在大多数单独问题上优于专用工具。校正评审员宽严度后,专用临床AI工具较Gemini获得更高评级的优势比(Odds Ratio, OR)仅0.13–0.51(均P<0.0001),相当于1–4分量表上低0.36–0.44分。Google Search AI Overview各维度评分不低于专用临床AI工具。四维度中清晰度差异最大(Kendall's W=0.292),OpenEvidence清晰度最低(均值2.84),提示其弱点在表达而非知识。UpToDate AI拒绝率19%(图2e),显著高于其他模型(1–3%,P<0.01)除Google AI Overview(6%,P=0.10)。有害内容(Cochran's Q=4.00,P=0.55)及幻觉(Q=5.00,P=0.42)检出率各模型间无差异。12名临床医师总体排序一致(Kendall's W=0.651,P=2.3×10−7),均将前沿LLM排于专用工具之上。结论:在真实临床查询场景中,通用前沿LLM综合表现显著优于专用临床AI工具,后者与常见搜索引擎AI概览功能相当。
讨论与结论(翻译浓缩):
本研究通过来自临床一线的真实医生查询,独立定量比较了专用临床AI工具与前沿LLM。专用临床AI工具在知识测试、专家一致性及真实临床使用各维度均落后于前沿模型;Google Search AI Overview在此基准中与专用临床AI工具表现相当。由于专有临床AI工具架构不公开,无法确切判定其逊于通用模型的原因——RAG检索到无关材料或整合不佳可能反而损害性能,而前沿LLM凭更大训练语料、更快迭代周期、更深对齐及更强的知识与推理能力占优。此结果反映当前技术发展阶段快照,若缩放收益递减,未来领域特化与临床参与式优化价值可能上升;极细分专科任务或仍受益于深度领域适配。局限性含专用工具无公开API需浏览器操作、标准基准可能存在数据泄漏(RCQ不受影响)、HealthBench为OpenAI开发且GPT系列评分最高存在潜在基准–开发者重叠(故以盲法临床医生RCQ评价为主要证据)。业界自制基准可能偏向自身系统,需独立构建评估工具。RCQ部分解决此问题——源于真实临床、盲法评审、无训练集污染。未来应补充响应延迟与引文质量等实用维度评估。综上,专用临床AI工具虽具机构合法性且常规使用安全,但在知识、沟通及临床对齐上并不优于前沿模型;前沿模型展现的优越性提示,对于多数通用医学任务,规模、对齐与跨域推理可能比领域特化微调更重要——这对医疗AI采购、报销及监管具参考意义。前景方向包括融合机构数据构建院级LLM以控外部风险,及对非敏感任务审慎使用前沿模型;生成式LLM广泛融入医疗各层面之际,针对真实世界任务的严格独立评估愈发必要。