生物医学大语言模型与提示工程在药物警戒个例安全性报告因果关系评估中的应用

时间:2026年5月24日
来源:Pharmaceutical Research

编辑推荐:

背景:生物医学大语言模型(Biomedical Large Language Models,LLMs)结合提示工程可提供领域特异性推理能力,但其在个体水平因果关系评估中的应用尚未被探索。本研究通过比较五种生物医学LLM、提示策略与因果关系算法组合与人类两位专家

广告
   X   

背景:生物医学大语言模型(Biomedical Large Language Models,LLMs)结合提示工程可提供领域特异性推理能力,但其在个体水平因果关系评估中的应用尚未被探索。本研究通过比较五种生物医学LLM、提示策略与因果关系算法组合与人类两位专家评估者的一致性,对其性能进行评估。 研究方法:共分析150份个例安全性报告(Individual Case Safety Reports,ICSRs),其中140份来自美国食品药品监督管理局不良事件报告系统(Food and Drug Administration Adverse Event Reporting System,FAERS),10份为疫苗不良事件报告系统(Vaccine Adverse Event Reporting System,VAERS)中的心肌炎/心包炎ICSRs。评估采用Naranjo算法与世界卫生组织-乌普萨拉监测中心(World Health Organization-Uppsala Monitoring Centre,WHO-UMC)算法。测试的生物医学LLMs包括TinyLlama 1.1B、Medicine LLaMA-3 8B及MedLLaMA v20,分别结合思维链(Chain-of-Thought,CoT)提示或分解式提示。一致性采用Gwet一致性系数1(Gwet’s Agreement Coefficient 1,AC1)、百分比一致性衡量,同时辅以性能指标与定性错误分析。 研究结果:Medicine LLaMA-3 8B-Naranjo-CoT组合在因果关系最终分类上与人类评估者的一致性最高(64%)。生物医学LLMs在因果关系评估的关键条目(如已列明不良事件识别、时间合理性、替代原因及不良事件客观证据)上表现出较低的评价者间一致性,常见模型失效表现为无关回答。 研究结论:生物医学LLMs较此前测试的通用途模型性能有所提升,但在ICSRs的可靠因果关系评估中仍属次优。
该研究发表于《Pharmaceutical Research》,针对药物警戒领域个体水平因果关系评估这一核心环节展开系统性探索。当前,个例安全性报告(ICSRs)的因果关系判定依赖人工完成,面临工作负荷过重、资源消耗高及主观差异显著等问题,传统规则与统计方法亦难以应对大规模报告处理需求。尽管大语言模型(LLMs)已在临床文本解析中展现潜力,但通用型模型因缺乏领域特异性训练与适配提示策略,在ICSR因果关系评估中表现欠佳。在此背景下,研究人员首次将经生物医学文献训练的大语言模型与先进提示工程相结合,旨在验证其在个体水平因果关系评估中的可行性,并明确其性能瓶颈与误差特征。
研究纳入150份真实世界ICSRs,包括140份来自FAERS的跨类别药物报告(涵盖新获批药物、基因与细胞疗法、常用处方药、特殊监测药物、孤儿药及管制物质)及10份VAERS中经临床确诊的新冠疫苗接种后心肌炎/心包炎报告。研究人员选取三种公开可用的生物医学LLMs——TinyLlama 1.1B、Medicine LLaMA-3 8B及MedLLaMA v20,分别结合思维链(CoT)提示与分解式提示两种策略,采用国际通用的Naranjo算法与WHO-UMC算法开展评估。人类专家参照标准为两名资深药物警戒专家(分别为药剂师与高级医师)的独立评估结果,二者在所有报告中达成完全一致。一致性评价采用Gwet AC1系数与百分比一致性,同时开展错误模式分类与分析。
研究结果部分显示,不同模型-提示-算法组合的性能存在显著差异。Inter-rater Agreement—TinyLlama 1.1B (Afrideva)-Naranjo-CoT:该配置在Naranjo算法第4、6–9题上一致性超过90%,但在已列明不良事件、时间关系及客观证据题项上一致性中等(44–62.7%),替代原因题项一致性最低;整体依从性为56.7%,AC1值为0.574,多数报告被归类为“可能”。Inter-rater Agreement—TinyLlama 1.1B (Afrideva)-Naranjo-Decomposition:除第3–4、6–9题一致性超过80%外,其余题项一致性均低于61%,整体依从性为52.7%(AC1=0.547)。Inter-rater Agreement—Medicine Llama3 8B (QuantFactory)-Naranjo-CoT:该组合表现最优,第3–4、6–9题一致性超过80%,整体依从性达63.3%(AC1=0.644),为所有配置中最高值。Inter-rater Agreement—Medicine Llama3 8B (QuantFactory)-WHO-UMC-CoTInter-rater Agreement—Medicine Llama3 8B (QuantFactory)-WHO-UMC-Decomposition:两种配置在WHO-UMC框架下整体依从性仅为23.3%–24.7%,AC1值介于0.297–0.327,仅在个别题项上达到较高一致性。Head-to-Head Comparisons:Naranjo算法下的各组合性能模式相似,而WHO-UMC框架下不同模型差异显著。Errors and Inconsistencies:Medicine LLaMA-3 8B-Naranjo-CoT的错误率最低,而MedLLaMA v20在WHO-UMC框架下近98%的案例存在程序性错误。
讨论部分指出,生物医学LLMs因训练数据源自专业文献,较通用模型更能贴近临床推理逻辑,最佳组合一致性较既往研究提升近一倍。然而,模型规模缩小并未解决时间合理性、替代原因等关键条目的评估缺陷,提示需结合指令微调等技术优化对齐。研究还发现,算法选择是影响性能的核心因素——同一模型与提示在Naranjo与WHO-UMC框架下的一致性差距可达40个百分点,反映叙事型框架更难被LLMs适配。此外,生物医学LLMs普遍缺乏对认知不确定性的识别能力,且在关键题项上常出现提示回声、指令漂移等错误,即便评分一致也难以提供可验证的推理依据,限制了其在监管场景中的可用性。
研究结论可归纳为五点:第一,生物医学LLMs较通用模型显著提升性能,验证了领域训练的必要性;第二,因果关系算法的兼容性决定整体性能,条目化工具(如Naranjo)优于叙事型框架;第三,提示策略的效果受算法结构调节,在条目化框架中差异有限;第四,已列明不良事件、时间合理性、替代原因及客观证据四类题项仍是技术难点,需借助具工具访问能力的智能体架构突破;第五,推理质量不足是当前核心短板,即便评分正确,缺乏可追溯的依据仍会阻碍实际应用。上述发现为后续开发可靠、合规的自动化因果关系评估系统提供了明确的技术路径与研究优先级。

生物通微信公众号
微信
新浪微博


生物通 版权所有