基于情境增强大语言模型的精准肿瘤学药物推荐系统:实现93%准确率的临床决策支持

时间:2026年1月17日
来源:Cancer Cell

编辑推荐:

本研究针对精准肿瘤学中生物标志物驱动治疗指南更新迅速的挑战,开发了一种基于检索增强生成(RAG)的大语言模型(LLM)框架。该研究通过整合分子肿瘤学手册(MOAlmanac)数据库,在102个肿瘤学家提供的真实世界查询中实现93%的准确率,为临床决策提供了动态更新的知识支持系统。

广告
   X   

在精准肿瘤学快速发展的今天,新的分子靶向疗法和相应的生物标志物不断涌现,使得肿瘤医生面临巨大的知识更新压力。每当美国食品药品监督管理局(FDA)批准新的靶向药物或扩大现有药物的适应症时,医生需要及时掌握这些信息,以便为患者提供最前沿的治疗方案。然而,这些信息通常分散在多个来源中,包括专业组织的临床实践指南、学术期刊文章和监管机构网站,某些批准甚至没有广泛宣传,进一步延迟了临床实践中的应用。
传统的知识更新方式存在明显局限性。大型语言模型(LLM)虽然在医疗领域展现出潜力,但由于其依赖过时的训练数据和缺乏专业领域知识,在处理精准肿瘤学中专业且快速更新的知识时往往力不从心。特别是在需要提供基于特定生物标志物的治疗建议时,这些模型的准确性和可靠性受到严重挑战。
为了应对这一挑战,由Hyeji Jun和Yutaro Tanaka领导的研究团队在《Cancer Cell》上发表了一项创新性研究,开发了一种情境增强的大语言模型框架,专门用于精准肿瘤学的药物推荐。该研究团队来自丹娜-法伯癌症研究所、布罗德研究所和哈佛医学院等多个知名机构,他们探索了如何将最新的精准肿瘤学知识动态整合到LLM中,以提高治疗推荐的准确性。
关键技术方法
研究团队构建了一个基于检索增强生成(RAG)的工作流程,使用分子肿瘤学手册(MOAlmanac)作为知识库。他们首先优化了提示策略,发现基础提示在多个LLM中表现最佳。然后建立了结构化和非结构化的情境数据库,分别包含FDA批准药物的详细信息和药物标签文本。研究人员采用了混合检索方法,结合了语义搜索和词汇搜索(BM25算法),并使用FAISS库进行高效相似性搜索。评估方面,他们创建了来自MOAlmanac的合成查询(2024年4月版234个,2025年10月版651个)和来自15位肿瘤科医生的102个真实世界查询,使用精确匹配准确率、部分匹配准确率、精确度、召回率和F1分数等指标进行系统评估。
提示优化与LLM基准测试
研究人员首先评估了不同提示策略对LLM性能的影响。他们测试了四种不同的提示策略,发现基础提示在代表模型Mistral NeMo 12B中表现最佳,达到了82.9%的准确率。这种优势在其他更大的LLM中也一致存在,其中GPT-4o在基础和组合提示策略中分别达到了89.3%和85.9%的最高准确率。
RAG集成LLM在治疗预测中优于单纯LLM
研究团队假设结构化数据增强将提高LLM在FDA批准治疗预测中的准确性和可靠性。他们评估了GPT-4o在使用非结构化和结构化数据格式时的表现。在没有RAG提供情境的情况下,模型在2024年发布的合成查询上准确率为62%至89%。然而,用非结构化文本数据增强模型后,性能显著提高,准确率升至72%-95%。整合结构化数据进一步提升了性能,准确率达到95%-96%。
结构化数据增强还显著改善了其他关键性能指标。特别是,与非结构化数据增强模型相比,精确度和F1分数分别提高了约90%和69%。包含更多记录(从10个到25个)进一步改善了模型性能。
结构化数据增强在不同癌症类型和治疗类别中的表现
结构化数据增强在不同癌症类型和治疗类别中一致优于非结构化方法。对于某些癌症类型,从非结构化增强转向结构化增强时,准确率提高了至少30%。对于治疗策略也观察到了类似的改进。
值得注意的是,结构化数据增强模型在某些结构化临床基因组关系密集表示的情况下表现良好。例如,对于具有14个同源重组修复(HRR)基因中任何突变的前列腺癌患者,抗雄激素+PARP抑制剂的治疗方案,RAG集成模型实现了63%的高精确匹配准确率,而非结构化RAG-LLM为4%,单纯LLM为0%。
RAG-LLM在真实世界场景中准确预测治疗
为了评估RAG-LLM方法的真实世界适用性,研究人员收集了来自15位肿瘤科医生的102个临床查询,这些查询主要关注给定特定癌症类型和生物标志物的精准肿瘤学治疗,涵盖了64种基因组生物标志物和35种癌症类型。
对于真实世界查询中目前不存在标签内FDA批准疗法的情况,研究人员评估了RAG-LLM是否错误地检索了标签外治疗选项。他们发现,与基线检索模型("策略R1")相比,用超出范围JSON模式增强的模型("策略R2")在真实世界验证查询上表现出改进的性能。
研究人员还评估了混合词汇和语义搜索检索方法("混合")是否会提高真实世界查询的性能。在初始的真实世界验证查询集(n=21)上,主要评估指标(如准确率、精确度、召回率和F1)相比基线"仅密集"方法提高了8%-18%。在最终保留的真实世界测试集(n=81)上,具有混合搜索的RAG-LLM实现了最佳准确率(93%),评估指标比仅密集检索方法提高了3%-9%。
真实世界案例中的代表性解释挑战
这些情境增强的LLM框架偶尔会误解检索到的情境,特别是对于询问一线治疗的查询。例如,在回答"73岁转移性尿路上皮癌新诊断患者,具有FGFR3 G370C突变和HER2 IHC 3+状态,推荐什么系统治疗选项?"的问题时,密集和混合搜索模式都预测了erdafitinib,即使检索到的情境明确说明它适用于先前系统治疗进展后的肿瘤。
同样,在回答"新诊断AML患者具有TP53和IDH1突变,应该考虑什么疗法?"的问题时,模型在两种方法下都没有返回任何药物,即使情境说明ivosidenib有适应症。虽然LLM偶尔会误解检索到的情境,但混合搜索在密集检索优先考虑临床无关但语义相似情境的场景中表现出优势。
探索RAG-LLM在FDA批准之外的泛化能力
为了评估RAG-LLM精准肿瘤学框架是否可泛化到FDA背景之外,研究人员策划并将CIViC数据库整合到框架中,并将其与用MOAlmanac数据库增强的原始流程进行比较。与MOAlmanac类似,CIViC持续更新,包含从监管批准到临床前证据的不同证据水平的知识陈述。
然而,在所有真实世界测试查询中,MOAlmanac增强模型的总体准确率(53-76%)高于CIViC增强模型(37%-62%),主要是由于知识库之间FDA批准条目的差异。相反,对于涉及标签外或超出范围选项的真实世界测试查询(n=10),CIViC增强模型的性能在所有评估指标上都超过了MOAlmanac增强模型。这表明在广度和精确度之间存在权衡,因为性能可能随着更大和更不具针对性的情境数据库而降低。
研究结论与意义
这项研究全面探讨了RAG-LLM在指导精准肿瘤学决策中的潜力。研究发现,提示优化,特别是使用简单提示,显著提高了LLM在检索FDA批准的生物标志物驱动治疗中的准确性,而结构化数据增强进一步将性能提升到在治疗预测中实现近乎完美的准确性。真实世界肿瘤学家查询验证了模型检索相关治疗的能力。
该研究强调了在精准肿瘤学中部署LLM的几个关键考虑因素。首先,提示设计对适应通用LLM至特定应用至关重要。其次,结构化数据增强在提高框架可靠性方面具有显著价值,使其更适合整合到临床决策工作流程中。第三,混合检索方法结合语义和词汇搜索,在真实世界查询中提供了最佳性能。
然而,挑战仍然存在,特别是在处理没有FDA批准治疗的情况时,模型往往错误地将其他癌症或生物标志物的治疗归因于当前案例。此外,模型有时会误解检索到的情境,特别是在涉及一线治疗指导时。
这项研究的框架由于需要更少的计算资源和比基于微调的方法具有更大的适应性,可能有助于促进精准肿瘤学的更广泛获取,特别是在支持非学术肿瘤学家方面,在医学肿瘤学动态变化的领域中具有有限的临床专业知识可用性。
此外,鉴于当前保持与监管批准同步的过程高度分散,需要在多个信息源之间切换,该框架还可以作为一个统一可靠的查询层,服务于一个原本分散的系统。最终,这项研究为未来在精准肿瘤医学中部署情境增强LLM流程以支持癌症患者治疗决策的工作提供了重要指导。

生物通微信公众号
微信
新浪微博


生物通 版权所有