作者:Chong Shao、Douglas Snyder、Chiran Li、Bowen Gu、Kerry Ngan、Chun-Ting Yang、Jiageng Wu、Richard Wyss、Kueiyu Joshua Lin、Jie Yang
摘要
研究目的
在电子健康记录(EHR)中识别药物停用情况对患者安全至关重要,但这一过程常常受到信息分散在非结构化笔记中的阻碍。本研究旨在评估先进的开源和专有大型语言模型(LLM)从EHR笔记中提取药物信息并分类其用药状态的能力,重点关注这些模型在无需人工标注的情况下提取药物信息的可扩展性。
研究设计与方法
我们收集了三个来自不同来源的EHR数据集作为评估基准:一个公开可用的数据集(Re-CASI),一个基于公开MIMIC笔记进行标注的数据集(MIV-Med),以及一个在麻省总医院布里格姆分院临床笔记上进行内部标注的数据集(MGB-Med)。我们评估了12种先进的LLM,包括通用领域的开源模型(如Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct)、医学专用模型(如MeLLaMA-70B-chat)以及一个专有模型(GPT-4o)。我们尝试了多种LLM提示策略,包括零样本(zero-shot)、五样本(5-shot)和思维链(Chain-of-Thought, CoT)方法,并系统地比较了它们在药物提取、药物状态分类以及两者结合任务(先提取后分类)方面的表现。
结果
LLM在药物提取方面表现出了良好的性能,但在药物停用分类及综合任务方面的表现较为困难。GPT-4o在零样本设置下始终取得了最高的平均F1分数:药物提取为94.0%,药物停用分类为78.1%,综合任务为72.7%。开源模型表现紧随其后,其中Llama-3.1-70B-Instruct在MIV-Med数据集上的药物状态分类得分最高(68.7%),在Re-CASI(76.2%)和MIV-Med(60.2%)数据集上的综合任务中也表现优异。医学专用LLM的表现相对较弱。少量样本学习(few-shot learning)通常能提升模型性能,而思维链推理(CoT)的效果则不稳定。值得注意的是,开源模型有时能够超越GPT-4o的表现,这凸显了它们在涉及隐私保护的临床研究中的潜力。
结论
LLM在EHR笔记中提取药物信息和识别药物停用情况方面展现出巨大潜力,开源模型为专有系统提供了可扩展的替代方案,而少量样本学习进一步提升了LLM的性能。
通俗语言总结
停止用药可能会影响患者的安全性和治疗效果,但这些信息往往隐藏在冗长的电子健康记录笔记中。我们研究了能够阅读和总结文本的大型语言模型是否能够自动识别药物名称,并判断药物是否仍在使用、已被停用或处于其他状态。我们测试了12种模型,其中包括适合医院安全使用的开源模型,并对比了三种提示方式:不提供示例、提供少量示例以及要求逐步推理。所有模型都产生了可用的结果。表现最出色的模型在识别药物名称方面的准确率约为94%,在判断用药状态方面的准确率约为78%(评分标准为0到100分,兼顾完整性和准确性)。提供少量示例通常比逐步指导更有效,一些开源模型的表现接近领先的专有模型。这些工具可以帮助医院和研究人员大规模监控药物使用情况,从而支持药物安全研究、患者依从性跟踪和临床决策支持,并在临床应用前进行本地验证和保障措施。