一项关于大型语言模型在患者信息提取领域应用的研究:模型架构、微调策略以及多任务指令的优化

时间:2026年3月29日
来源:Journal of Biomedical Informatics

编辑推荐:

临床信息抽取系统采用LLM架构、微调策略及多任务指令调优的实证研究,对比编码器架构(BERT、GatorTron)与解码器架构(GatorTronGPT、Llama 3.1、GatorTronLlama)在五个基准数据集上的性能,验证提示引擎参数高效微调(PEFT)策略优于传统全参数微调,多任务指令调优使零样本和少样本F1分数提升1.1%-37.8%。实验表明解码器架构LLM结合PEFT和指令调优能实现高效、可扩展的临床信息抽取系统。

广告
   X   

程鹏|董新宇|刘梦贤|丹尼尔·帕雷德斯|张瑶云|吴永辉
美国佛罗里达大学医学院健康结果与生物医学信息学系,盖恩斯维尔,FL

摘要

背景

自然语言处理(NLP)是一种关键技术,可以从临床叙述中提取重要的患者信息以支持医疗应用。大型语言模型(LLMs)的快速发展彻底改变了临床领域中的患者信息提取方式,然而,为了实现最佳性能而有效采用LLMs的关键策略仍需进一步探索。本研究考察了LLMs在患者信息提取方面的有效性,重点关注LLM架构、微调策略以及多任务指令调优技术,以开发出稳健且具有泛化能力的患者信息提取系统。

方法

本研究旨在探索采用LLMs进行临床概念和关系提取任务的关键策略,包括:(1)仅编码器的LLMs或仅解码器的LLMs;(2)基于提示的参数高效微调(PEFT)算法;(3)在少量样本学习性能上的多任务指令调优。我们在五个广泛使用的基准数据集上对一系列LLMs进行了基准测试,包括仅编码器的LLMs(BERT、GatorTron)和仅解码器的LLMs(GatorTronGPT、Llama 3.1、GatorTronLlama)。我们比较了传统的完整尺寸微调方法和基于提示的PEFT方法,并探索了一种结合四个数据集的多任务指令调优框架,以评估零样本和少量样本学习性能。

结果

对于单任务临床概念提取(CE),两种仅解码器的LLMs(Llama 3.1和GatorTronLlama)在五个数据集上均取得了最佳性能,平均F1分数分别为0.8964和0.8981,优于其他LLMs,平均F1分数提高了0.7%至3.3%。使用基于提示的学习方法的仅编码器LLMs的表现优于采用分类方法的LLMs。对于临床关系提取(RE),基于提示的PEFT策略表现出色,在所有数据集上的F1分数提高了15.9%。所有三种仅解码器的LLMs的表现都优于仅编码器的LLMs,平均F1分数提高了1.8%至6.6%,其中GatorTronLlama的表现最佳,平均F1分数为0.8978。多任务指令调优显著提升了零样本和少量样本的学习性能,与不进行多任务微调相比,F1分数提高了1.1%至37.8%。值得注意的是,仅使用完整数据集20%的生成型LLMs在多任务指令调优下的表现与完整尺寸微调相当(F1分数相差小于0.005)。

结论

我们的研究结果表明,结合PEFT的生成型LLMs是患者信息提取的一种成本效益高的解决方案。此外,多任务指令调优显著提高了零样本和少量样本的学习性能,增强了模型的泛化能力。本研究为开发基于LLM的可扩展、适应性强且性能高的患者信息提取系统提供了实用指南。

引言

临床笔记是电子健康记录(EHRs)的重要组成部分,其中包含了实验室检测结果、诊断信息、治疗方案和预后等关键临床护理信息[1]、[2]。信息提取(IE)是提取关键患者信息以支持下游医疗应用(如决策支持和临床试验匹配[3]、[4]、[5])的关键技术。IE包括两个基本子任务:临床概念提取(CCE),用于识别疾病、治疗方法和症状等临床概念[6];以及临床关系提取(CRE),用于识别临床概念之间的关系,例如药物与相应不良事件之间的关系[7]、[8]。在2006年至2012年间的i2b2/n2c2共享任务等先前研究和开放挑战中,IE得到了广泛探讨[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]。已经开发了许多基于规则的方法、基于机器学习的方法和混合方法。先前的研究指出了IE面临的关键挑战,包括临床语言的复杂性、领域特定词汇以及高昂的标注成本。因此,需要更加稳健和可扩展的NLP方法[18]。
基于变换器的大型语言模型(LLMs)的最新突破彻底改变了许多临床NLP任务。早期的模型(包括基于规则的模型[19])和传统的机器学习模型[20]在泛化能力方面存在局限性;而LLMs的最新进展提供了有希望的解决方案。LLMs的最初突破来自仅编码器的变换器模型,例如BERT[21],这些模型后来通过使用生物医学和临床语料库进行预训练,发展为特定领域的变换器模型,如BioBERT[22]、ClinicalBERT[23]和GatorTron[24]。虽然仅编码器的变换器模型通过双向、基于嵌入的文本表示改进了临床IE,但提取任务仍然采用基于分类的方法,这仍然受到传统机器学习模型固有的泛化能力不足的影响[25]、[26]。2020年后,具有大量参数的仅解码器变换器模型成为主流,即生成型LLMs,例如ChatGPT、LLAMA[27]、[28]、[29]和GatorTronGPT[30]。生成型LLMs采用了基于提示的学习算法,将人类指令作为额外信息整合到输入中,从而指导生成型LLM按照文本到文本的生成过程生成相应的答案。这种方法提供了一种更灵活、更高效的方式,根据人类指令指导机器识别所需信息,从而在一个统一的文本到文本生成框架中处理多种NLP任务。生成型LLMs的另一个独特优势是它们具备少量样本和零样本学习能力[31]、[32],这使得它们能够在少量甚至无标注数据的情况下实现人类水平的语言处理,并大大降低了标注成本。微调是采用LLMs进行临床IE的关键技术[8]。传统的仅编码器LLMs的微调需要训练特定于数据集的分类层,这需要大量的标注数据[33],并且训练好的分类层只能用于一种特定类型的IE任务。由于LLMs通常具有数十亿个参数,因此在微调过程中更新所有参数非常昂贵。提出了参数高效的微调方法(PEFT),如P-tuning[34]、[35]和Low-Rank Adaptation(LoRA)[36],通过仅更新一小部分参数来降低训练成本。使用多任务数据的指令调优也展示了更好的少量样本学习能力[32]、[37],与使用单一任务的微调相比。
仅编码器和仅解码器的LLMs都已被应用于临床IE。然而,最近关于生成型LLMs的研究主要集中在自由文本问答(QA)上。在使用LLMs进行临床IE方面仍存在几个关键差距。首先,缺乏对不同临床IE任务中仅编码器LLMs和仅解码器生成型LLMs的全面比较;使用这两种LLMs进行IE的优势和劣势尚不明确。其次,尚未系统地评估传统的全尺寸微调与基于提示的PEFT在LLM架构之间的实际权衡,使得从业者在选择微调策略时缺乏明确指导。第三,LLMs在新数据集和注释模式上的迁移学习能力——这对于实际应用至关重要——仍然是一个重大挑战。据我们所知,这是首次比较仅编码器和仅解码器LLMs在患者信息提取方面的研究,重点关注模型架构、微调策略、泛化能力和多任务指令调优,使用了广泛的临床数据基准数据集。具体而言,本研究对仅编码器和仅解码器LLMs在患者信息提取方面的表现进行了全面的实证研究。我们的贡献包括:(1)提供了主流仅编码器LLMs(BERT、GatorTron)和仅解码器LLMs(GatorTronGPT、Llama 3.1、GatorTronLlama)在患者信息提取方面的基准比较;(2)系统地评估了传统微调与基于提示的PEFT策略的性能和效率;(3)使用留一数据集的方法评估了生成型LLMs的多任务指令调优在零样本和少量样本学习方面的改进;(4)为选择LLM架构和微调策略提供了实证指导,以开发出可扩展、适应性强且性能高的患者信息提取系统。

介绍

临床笔记是电子健康记录(EHRs)的重要组成部分,其中包含了实验室检测结果、诊断信息、治疗方案和预后等关键临床护理信息[1]、[2]。信息提取(IE)是提取关键患者信息以支持下游医疗应用(如决策支持和临床试验匹配[3]、[4]、[5])的关键技术。IE包括两个基本子任务:临床概念提取(CCE),用于识别疾病、治疗方法和症状等临床概念[6];以及临床关系提取(CRE),用于识别临床概念之间的关系,例如药物与相应不良事件之间的关系[7]、[8]。在2006年至2012年间的i2b2/n2c2共享任务等先前研究和开放挑战中,IE得到了广泛探讨[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]。已经开发了许多基于规则的方法、基于机器学习的方法和混合方法。先前的研究指出了IE面临的关键挑战,包括临床语言的复杂性、领域特定词汇以及高昂的标注成本。因此,需要更加稳健和可扩展的NLP方法[18]。
基于变换器的大型语言模型(LLMs)的最新突破彻底改变了许多临床NLP任务。早期的模型(包括基于规则的模型[19])和传统的机器学习模型[20]在泛化能力方面存在局限性;而LLMs的最新进展提供了有希望的解决方案。LLMs的最初突破来自仅编码器的变换器模型,例如BERT[21],这些模型后来通过使用生物医学和临床语料库进行预训练,发展为特定领域的变换器模型,如BioBERT[22]、ClinicalBERT[23]和GatorTron[24]。虽然仅编码器的变换器模型通过双向、基于嵌入的文本表示改进了临床IE,但提取任务仍然采用基于分类的方法,这仍然受到传统机器学习模型固有的泛化能力不足的影响[25]、[26]。2020年后,具有大量参数的仅解码器变换器模型成为主流,即生成型LLMs,例如ChatGPT、LLAMA[27]、[28]、[29]和GatorTronGPT[30]。生成型LLMs采用了基于提示的学习算法,将人类指令作为额外信息整合到输入中,即提示,指导生成型LLM生成相应的答案。这种方法提供了一种更灵活、更高效的方式,根据人类指令指导机器识别所需信息,从而在一个统一的文本到文本生成框架中处理多种NLP任务。生成型LLMs的另一个独特优势是它们具备少量样本和零样本学习能力[31]、[32],这使得它们能够在少量甚至无标注数据的情况下实现人类水平的语言处理,并大幅降低标注成本。微调是采用LLMs进行临床IE的关键技术[8]。传统的仅编码器LLMs的微调需要训练特定于数据集的分类层,这需要大量的标注数据[33],并且训练好的分类层只能用于一种特定类型的IE任务。由于LLMs通常具有数十亿个参数,因此在微调过程中更新所有参数非常昂贵。提出了参数高效的微调方法(PEFT),如P-tuning[34]、[35]和Low-Rank Adaptation(LoRA)[36],通过仅更新一小部分参数来降低训练成本。使用多任务数据的指令调优也展示了更好的少量样本学习能力[32]、[37],与使用单一任务的微调相比。
仅编码器和仅解码器的LLMs都已被应用于临床IE。然而,最近关于生成型LLMs的研究主要集中在自由文本问答(QA)上。在使用LLMs进行临床IE方面仍存在几个关键差距。首先,缺乏对不同临床IE任务中仅编码器LLMs和仅解码器生成型LLMs的全面比较;使用这两种LLMs进行IE的优势和劣势仍不清楚。其次,尚未系统地评估传统的全尺寸微调与基于提示的PEFT在LLM架构之间的实际权衡,使得从业者在选择微调策略时缺乏明确指导。第三,LLMs在新数据集和注释模式上的迁移学习能力——这对于实际应用至关重要——仍然是一个重大挑战。据我们所知,这是首次比较仅编码器和仅解码器LLMs在患者信息提取方面的研究,重点关注模型架构、微调策略、泛化能力和多任务指令调优,使用了广泛的临床数据基准数据集。具体而言,本研究对仅编码器和仅解码器LLMs在患者信息提取方面的表现进行了全面的实证研究。我们的贡献包括:(1)提供了主流仅编码器LLMs(BERT、GatorTron)和仅解码器LLMs(GatorTronGPT、Llama 3.1、GatorTronLlama)在患者信息提取方面的基准比较;(2)系统地评估了传统微调与基于提示的PEFT策略的性能和效率;(3)使用留一数据集的方法评估了生成型LLMs的多任务指令调优在零样本和少量样本学习方面的改进;(4)为选择LLM架构和微调策略提供了实证指导,以开发出可扩展、适应性强且性能高的患者信息提取系统。

部分片段

总体框架

本研究评估了两种仅编码器的LLMs和三种仅解码器的LLMs在从临床叙述中提取患者信息方面的表现。我们系统地探讨了模型架构、微调策略以及多任务指令调优对泛化能力的影响。图1展示了研究设计的概览。

临床NLP任务

本研究重点关注两个基本的NLP任务,即临床概念提取(CE)和临床关系提取(RE)。
临床概念提取(CE),也称为命名实体识别

不同LLM架构和微调策略的结果

表2比较了12种具有不同架构和微调策略的LLMs在单任务微调下的临床概念提取(CE)表现。三种LLMs,包括GatorTron-large-MRC、Llama 3.1-8B和GatorTronLlama,在五个数据集上的平均Micro-F1分数超过0.89,平均Macro-F1分数超过0.87。GatorTronLlama的平均Micro-F1分数最高,为0.8981,平均Macro-F1分数为0.8754,略优于通用领域的Llama 3.1-8B(分别为0.8964和0.8730)

讨论

本研究对LLMs在患者信息提取(包括CE和RE任务)方面的表现进行了全面评估。我们系统地比较了两种LLM架构、两种微调策略以及多任务指令调优对泛化能力的影响。本研究为开发稳健且适应性强的临床NLP系统以提取患者信息提供了关键见解。
统计测试表明,模型架构的选择对性能有显著影响。

结论

本研究全面探讨了使用仅编码器和仅解码器LLMs进行患者信息提取的情况,重点关注模型架构、微调策略以及生成型LLMs的多任务指令调优。我们的研究结果为选择LLM架构和微调策略以促进从临床叙述中提取患者信息的基于LLM的解决方案的开发提供了实用指导。

资助声明

本研究部分得到了Patient-Centered Outcomes Research Institute®(PCORI®)奖项(ME-2018C3-14754、ME-2023C3-35934)、Advanced Research Projects Agency for Health(ARPA-H)颁发的PARADIGM项目、National Institute on Aging(NIA)R56AG069880、National Institute on Allergy and Infectious Diseases(NIAID)R01AI172875、National Heart, Lung, and Blood Institute(R01HL169277)、National Institute on Drug Abuse(NIDA)R01DA050676、R01DA057886以及National Cancer

伦理声明

本研究使用了来自公开可用基准数据集(2010 i2b2、2018 n2c2、2022 n2c2和RadGraph)的去标识化临床文本数据,以及来自佛罗里达大学健康集成数据存储库(UF Health IDR)的内部数据集。所有用于本研究的数据均按照Health Insurance Portability and Accountability Act(HIPAA)隐私规则进行了完全去标识化处理,未访问或分析任何受保护的健康信息(PHI)。
因为本研究

数据和代码的可用性

本研究中使用的五个数据集中有四个是公开可用的。2010 i2b2、2018 n2c2和2022 n2c2挑战数据集可以通过n2c2网站(https://n2c2.dbmi.hms.harvard.edu)获取。RadGraph数据集可以从PhysioNet(https://physionet.org/content/radgraph/1.0.0/)下载。UF Health数据集是使用佛罗里达大学健康集成数据存储库中的临床笔记内部创建的,由于UF政策原因不对外公开。

CRediT作者贡献声明

程鹏:撰写——审阅与编辑、撰写——初稿、可视化、

生物通微信公众号
微信
新浪微博


生物通 版权所有