评估检索增强生成大语言模型在感染性心内膜炎预防中的表现：临床准确性与效率分析

时间：2025年12月30日

来源：International Dental Journal

编辑推荐：

本研究针对LLMs在医疗领域存在的幻觉和知识陈旧问题，创新性地将RAG技术应用于IE预防场景。研究人员通过构建基于2021年AHA指南的专业问答集，系统评估了10种RAG-LLMs的临床准确性，发现DeepSeek Reasoner和Grok 3 beta分别在不同条件下达到最高准确率（83.6%和90.0%），但RAG并非对所有模型都有提升作用。试点研究显示LLM辅助未能显著提高牙科学生成绩反而增加任务时间，表明当前技术在教育场景的实际效用仍有限，为AI在牙科临床决策支持系统的开发提供了重要参考。

当人工智能浪潮席卷医疗领域，大型语言模型（Large Language Models, LLMs）正以其强大的文本生成能力改变着临床决策支持系统的生态。然而，这些模型固有的“幻觉”现象和知识更新滞后问题，如同悬在头顶的达摩克利斯之剑，让医疗从业者既期待又担忧。特别是在感染性心内膜炎（Infective Endocarditis, IE）预防这样的关键领域，过时或错误的信息可能导致严重的临床后果。传统LLMs可能引用陈旧的2007年美国心脏协会（American Heart Association, AHA）指南，而忽略2021年的最新推荐，这种知识断层在快速发展的医学领域尤为致命。

面对这一挑战，来自泰国朱拉隆功大学牙科系解剖学部门的Paak Rewthamrongsris团队开展了一项创新研究，成果发表在《International Dental Journal》。他们巧妙地将检索增强生成（Retrieval-Augmented Generation, RAG）技术引入牙科临床决策场景，系统评估了10种LLMs在IE预防问题上的表现，不仅比较了各模型的准确性和一致性，还通过牙科学生使用实验探索了AI辅助工具的实际效用。

研究人员采用了几项关键技术方法：利用MiniLM L6 v2嵌入模型和FAISS向量数据库构建RAG系统，以2021年AHA指南作为知识源；使用包含28个真假问题的标准化评估集；对10种LLMs进行5次独立测试比较有/无预提示（preprompt）效果；招募10名牙科学生（5名本科生、5名口腔颌面外科研究生）进行AI辅助效果评估。

No-preprompt条件

在没有预提示的情况下，DeepSeek Reasoner以83.6%的平均准确率位居榜首，其次是GPT-o3-mini（81.4%）和GPT-4.5 Preview（80.0%）。而Claude 3.7 Sonnet表现最差，准确率仅为42.1%。研究还发现，Claude 3.7 Sonnet在没有预提示时响应一致性最高（96.4%），而DeepSeek Reasoner虽然准确率高，但响应时间最长（平均42.7秒/查询）。

Preprompt条件

添加“您是一位经验丰富的牙医”的预提示后，所有模型的准确率均有提升，但差异不显著。Grok 3 beta以90.0%的准确率成为最佳表现者，而DeepSeek Reasoner降至第三位（85.0%）。预提示策略还提高了Claude 3.5 Sonnet、DeepSeek Reasoner和GPT-o3-mini的响应一致性，但降低了Gemini 1.5 Pro、Llama 3.3 70b和Grok 3 beta的一致性。

RAG对模型准确性的影响

与之前研究的非RAG版本比较，RAG对GPT-4o的准确性影响中性（维持78.6%），但降低了Claude 3.5 Sonnet和Gemini 1.5 Pro的表现。在预提示条件下，RAG为GPT-4o和Gemini 1.5 Pro带来非显著提升，但对Claude 3.5 Sonnet仍有负面影响。

LLMs辅助牙科学生

选择表现最佳的DeepSeek Reasoner作为辅助工具后，研究发现研究生组准确率有非显著提高（85.0%至86.4%），但完成任务时间从15.2分钟增加至26.2分钟。本科生组准确率反而下降（82.9%至79.3%），时间从8.4分钟增至14.4分钟。这表明LLM辅助未能显著提升学生表现，反而显著增加了任务时间。

研究结论指出，RAG技术对LLMs性能的提升具有条件依赖性，受模型架构、规模和基线能力等多种因素影响。开放源码模型展现出与专有模型竞争甚至更优的性能，表明它们在领域特定应用中的潜力。然而，RAG并非万能钥匙，有时甚至会导致性能下降。更重要的是，实际用户测试表明，当前LLM辅助在牙科教育中的实用价值有限，未能带来准确性提升却增加了时间成本。

这项研究的意义在于为医学AI领域提供了重要警示：技术先进性与实际效用之间存在差距。在IE这种危及生命的疾病管理中，从LLMs获取的信息必须经过独立验证才能临床使用。研究强调，尽管LLMs展示出潜力，但其准确性尚不足以在无人监督的情况下用于患者护理。未来研究需要优化检索方法，平衡准确性与效率，并充分考虑人机交互因素，才能真正实现AI在牙科教育和临床实践中的变革性价值。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部