当人工智能浪潮席卷医疗领域,大型语言模型(Large Language Models, LLMs)正以其强大的文本生成能力改变着临床决策支持系统的生态。然而,这些模型固有的“幻觉”现象和知识更新滞后问题,如同悬在头顶的达摩克利斯之剑,让医疗从业者既期待又担忧。特别是在感染性心内膜炎(Infective Endocarditis, IE)预防这样的关键领域,过时或错误的信息可能导致严重的临床后果。传统LLMs可能引用陈旧的2007年美国心脏协会(American Heart Association, AHA)指南,而忽略2021年的最新推荐,这种知识断层在快速发展的医学领域尤为致命。
面对这一挑战,来自泰国朱拉隆功大学牙科系解剖学部门的Paak Rewthamrongsris团队开展了一项创新研究,成果发表在《International Dental Journal》。他们巧妙地将检索增强生成(Retrieval-Augmented Generation, RAG)技术引入牙科临床决策场景,系统评估了10种LLMs在IE预防问题上的表现,不仅比较了各模型的准确性和一致性,还通过牙科学生使用实验探索了AI辅助工具的实际效用。
研究人员采用了几项关键技术方法:利用MiniLM L6 v2嵌入模型和FAISS向量数据库构建RAG系统,以2021年AHA指南作为知识源;使用包含28个真假问题的标准化评估集;对10种LLMs进行5次独立测试比较有/无预提示(preprompt)效果;招募10名牙科学生(5名本科生、5名口腔颌面外科研究生)进行AI辅助效果评估。
No-preprompt条件
在没有预提示的情况下,DeepSeek Reasoner以83.6%的平均准确率位居榜首,其次是GPT-o3-mini(81.4%)和GPT-4.5 Preview(80.0%)。而Claude 3.7 Sonnet表现最差,准确率仅为42.1%。研究还发现,Claude 3.7 Sonnet在没有预提示时响应一致性最高(96.4%),而DeepSeek Reasoner虽然准确率高,但响应时间最长(平均42.7秒/查询)。
Preprompt条件
添加“您是一位经验丰富的牙医”的预提示后,所有模型的准确率均有提升,但差异不显著。Grok 3 beta以90.0%的准确率成为最佳表现者,而DeepSeek Reasoner降至第三位(85.0%)。预提示策略还提高了Claude 3.5 Sonnet、DeepSeek Reasoner和GPT-o3-mini的响应一致性,但降低了Gemini 1.5 Pro、Llama 3.3 70b和Grok 3 beta的一致性。
RAG对模型准确性的影响
与之前研究的非RAG版本比较,RAG对GPT-4o的准确性影响中性(维持78.6%),但降低了Claude 3.5 Sonnet和Gemini 1.5 Pro的表现。在预提示条件下,RAG为GPT-4o和Gemini 1.5 Pro带来非显著提升,但对Claude 3.5 Sonnet仍有负面影响。
LLMs辅助牙科学生
选择表现最佳的DeepSeek Reasoner作为辅助工具后,研究发现研究生组准确率有非显著提高(85.0%至86.4%),但完成任务时间从15.2分钟增加至26.2分钟。本科生组准确率反而下降(82.9%至79.3%),时间从8.4分钟增至14.4分钟。这表明LLM辅助未能显著提升学生表现,反而显著增加了任务时间。
研究结论指出,RAG技术对LLMs性能的提升具有条件依赖性,受模型架构、规模和基线能力等多种因素影响。开放源码模型展现出与专有模型竞争甚至更优的性能,表明它们在领域特定应用中的潜力。然而,RAG并非万能钥匙,有时甚至会导致性能下降。更重要的是,实际用户测试表明,当前LLM辅助在牙科教育中的实用价值有限,未能带来准确性提升却增加了时间成本。
这项研究的意义在于为医学AI领域提供了重要警示:技术先进性与实际效用之间存在差距。在IE这种危及生命的疾病管理中,从LLMs获取的信息必须经过独立验证才能临床使用。研究强调,尽管LLMs展示出潜力,但其准确性尚不足以在无人监督的情况下用于患者护理。未来研究需要优化检索方法,平衡准确性与效率,并充分考虑人机交互因素,才能真正实现AI在牙科教育和临床实践中的变革性价值。