临床医学领域大型语言模型的系统综述：基于LLM辅助方法的证据现状、研究空缺与未来路线图分析

时间：2026年3月4日

来源：Nature Medicine

编辑推荐：

为评估大型语言模型（LLM）在临床医学中爆炸式增长的证据，其临床相关性及证据质量仍不明确。本研究利用LLM辅助的系统性综述框架，对2022-2025年间4609篇研究进行自动筛选、证据分级和元数据分析。结果显示，尽管相关研究日均发表约3.2篇，但多数（约77%）基于模拟或考试数据，仅1048项（约19项为前瞻性随机对照试验）使用真实世界患者数据。ChatGPT/OpenAI模型占评估模型的65.7%，在与人比较中，LLM在33%的情况下表现更优，但表现高度依赖于任务真实性和专家水平。本研究揭示了当前临床LLM研究在证据质量、数据开放性和专科覆盖方面的关键空缺，并为未来严格的、以患者为中心的临床AI研究提供了路线图。

临床AI研究的“泡沫”与“基石”：一次对4609篇论文的深度体检

自2022年11月ChatGPT横空出世以来，大型语言模型（Large Language Model, LLM）以其强大的自然语言理解和生成能力，迅速成为临床医学领域最炙手可热的研究工具。从回答患者疑问、总结病历文献，到辅助复杂病例的诊断决策，LLM的应用潜力看似无限。一时间，全球范围内涌现出海量宣称评估LLM临床能力的研究论文。然而，繁荣背后暗藏隐忧：这些研究真的能告诉我们LLM在实际医疗场景中到底有多可靠吗？它们的证据质量究竟如何？是扎实的临床验证，还是仅限于知识考试的“纸上谈兵”？

这正是《Nature Medicine》最新发表的这项研究试图解答的核心问题。面对以“每天约3.2篇”速度增长的文献海洋，传统人工综述方法已力不从心。为此，研究团队创造性地“以其人之道，还治其人之身”——利用最前沿的LLM（GPT-5，高推理模式）构建了一个自动化、可扩展的系统综述框架，对2022年1月至2025年9月间发表在PubMed、Embase和Scopus三大数据库中的相关研究进行了一次大规模的“全景扫描”与“深度体检”。

研究方法的核心：自动化筛选与证据分级

为了高效处理海量文献，研究团队开发了一套LLM驱动的自动化流程。首先，利用GPT-5对从数据库检索并去重后的12894项研究进行初步筛选，判断其是否符合“评估LLM在临床任务中的应用”这一核心纳入标准，此过程通过500项研究的人工验证进行了严格校准。接着，对纳入的4609项研究，研究团队设计了一个四级证据分级体系，并再次由GPT-5自动执行分级：

•
Tier S（金标准）：在实际临床环境中，对已部署系统进行的前瞻性、随机对照试验。
•
Tier I：使用真实的、前所未见的临床数据进行回顾性或前瞻性分析。
•
Tier II：基于模拟或合成的临床数据/场景进行评估。
•
Tier III：基于知识检索和回忆的评估，如标准化考试、选择题等，不具临床实践代表性。

此分级结果也通过250项研究的人工评审进行了验证。最后，GPT-5进一步从每篇研究的标题和摘要中提取了模型类型、临床专科、任务类别、人机比较结果、数据集类型、样本量等关键元数据，用于后续统计分析。通过贝叶斯模型等方法，研究团队估算了各证据等级研究的真实数量及统计置信区间。

研究结果：繁荣景象下的证据“鸿沟”

1. 估算临床LLM研究的真实数量与质量

•
经过LLM筛选与人工验证校正，研究估计在2022年1月至2025年9月间，共有约4361至4906项符合纳入标准的临床LLM研究发表，日均约3.2篇。自ChatGPT发布后，月发表量以线性速度增长（约每月增加7.04项研究）。
•
关键发现：在全部研究中，绝大多数（约77%）并非基于真实临床数据。经过贝叶斯模型估算，Tier I（含极少数Tier S）研究仅有约1048项，而Tier II（模拟数据）和Tier III（考试类任务）研究分别约有1857项和1704项。其中，前瞻性随机对照试验（Tier S）仅发现19项。这揭示了一个严峻的现实：尽管相关出版物数量爆炸式增长，但能直接证明LLM在实际临床环境中有效性的高质量证据极为稀缺。

2. 跨时间、等级、任务和专科的趋势

•
时间与模型：研究热潮始于ChatGPT发布后。评估的模型中，ChatGPT及相关OpenAI模型占据压倒性优势（65.7%），Google的Gemini/Bard以13.1%位列第二，而像亚马逊Alexa这类在家庭中普及的模型却鲜有研究。闭源模型的研究占比高达87.7%。
•
任务与数据：最常见的评估任务是“面向患者的沟通与教育”（占任务的17.4%）和“知识检索与临床问答”（12.7%）。最常使用的数据集类型是“临床医师委员会考试和自测题”（22.7%），而“真实世界电子健康记录”仅占9.2%。在可获取来源的数据集中，只有42.6%是开放获取的。
•
专科分布：研究高度集中于少数几个专科。例如，在内外科研究中，骨科手术占了外科研究的三分之一，而肿瘤学、心脏病学和胃肠病学合计占了内科研究的过半比例。许多医学和外科亚专科存在显著的研究空白。

3. 与人类专家相比的性能

•
在1046项报告了人机比较结果的研究中，LLM在33.0%的情况下表现优于人类专家，在64.5%的情况下表现不及，2.5%结果混合。
•
性能高度依赖于任务背景和专家水平：LLM在Tier III（知识考试）研究中胜过人类的比例（38.4%）显著高于Tier I（真实数据）研究（25.9%）。这表明在 contrived 考试中的优异表现并不能很好地转化为现实临床实践中的能力。
•
与人类比较时，LLM胜过主治医师的比例低于胜过医学生和未指定级别医师的比例。住院医师被LLM超越的频率比主治医师高30%，尽管此差异在多重比较校正后未达显著性。

4. 研究方法学局限性

•
至少25%的研究样本量小于30，许多研究的统计效能和结论可靠性存疑。

研究结论与展望：迈向严谨、以患者为中心的临床AI

这项LLM辅助的系统综述绘制了一幅临床AI研究领域的“热力图”与“缺口图”。其核心结论是，尽管围绕LLM的临床研究数量呈指数级增长，但严谨的、以患者为中心的证据依然匮乏。当前文献存在几大突出不平衡：模拟数据研究与真实数据研究的不平衡、知识评估任务与复杂临床任务的不平衡、对少数热门专科与多数冷门专科关注度的不平衡、以及对闭源模型与开源模型研究投入的不平衡。

基于这些发现，研究团队为未来临床LLM研究提出了清晰的路线图：

1.
证据递进路径：从验证基础知识的Tier III研究开始，逐步过渡到模拟场景的Tier II研究，再推进到使用真实临床数据的Tier I前瞻性/回顾性研究，最终迈向在真实临床环境中检验患者结局的Tier S随机对照试验。
2.
提高研究严谨性：在涉及人机比较的研究中，应将LLM与特定临床任务领域的专家（而非广义的临床医师或受训者）进行对比。研究应确保足够的样本量，并致力于开发和使用开放获取的数据集，以促进可重复性和社区审查。
3.
填补研究空白：迫切需要加大对开源临床LLM的评估与开发投入，以确保技术的可及性和可持续性。同时，应鼓励对目前研究不足的医学和外科专科进行探索，确保AI的益处能惠及所有医疗实践领域。
4.
拥抱自动化工具：本研究本身证明了利用LLM进行大规模、自动化证据合成与分析的可行性与价值，为应对未来更庞大的文献增长提供了方法论范例。

总之，这项研究如同一面镜子，既映照出生成式AI在医学中激动人心的潜力，也清晰反射出当前研究基础在走向临床落地前必须弥补的“证据鸿沟”。它为研究者、资助机构和临床决策者指明了方向：唯有将重点从“模型能答对多少题”转向“模型如何在真实世界改善患者预后”，并遵循严谨、透明、以患者为中心的研究路径，LLM才能真正从“炫技”的科技明星，转变为值得信赖的临床伙伴。