部分片段
总体框架
本研究评估了两种仅编码器的LLMs和三种仅解码器的LLMs在从临床叙述中提取患者信息方面的表现。我们系统地探讨了模型架构、微调策略以及多任务指令调优对泛化能力的影响。图1展示了研究设计的概览。
临床NLP任务
本研究重点关注两个基本的NLP任务,即临床概念提取(CE)和临床关系提取(RE)。
临床概念提取(CE),也称为命名实体识别
不同LLM架构和微调策略的结果
表2比较了12种具有不同架构和微调策略的LLMs在单任务微调下的临床概念提取(CE)表现。三种LLMs,包括GatorTron-large-MRC、Llama 3.1-8B和GatorTronLlama,在五个数据集上的平均Micro-F1分数超过0.89,平均Macro-F1分数超过0.87。GatorTronLlama的平均Micro-F1分数最高,为0.8981,平均Macro-F1分数为0.8754,略优于通用领域的Llama 3.1-8B(分别为0.8964和0.8730)
讨论
本研究对LLMs在患者信息提取(包括CE和RE任务)方面的表现进行了全面评估。我们系统地比较了两种LLM架构、两种微调策略以及多任务指令调优对泛化能力的影响。本研究为开发稳健且适应性强的临床NLP系统以提取患者信息提供了关键见解。
统计测试表明,模型架构的选择对性能有显著影响。
结论
本研究全面探讨了使用仅编码器和仅解码器LLMs进行患者信息提取的情况,重点关注模型架构、微调策略以及生成型LLMs的多任务指令调优。我们的研究结果为选择LLM架构和微调策略以促进从临床叙述中提取患者信息的基于LLM的解决方案的开发提供了实用指导。
资助声明
本研究部分得到了Patient-Centered Outcomes Research Institute®(PCORI®)奖项(ME-2018C3-14754、ME-2023C3-35934)、Advanced Research Projects Agency for Health(ARPA-H)颁发的PARADIGM项目、National Institute on Aging(NIA)R56AG069880、National Institute on Allergy and Infectious Diseases(NIAID)R01AI172875、National Heart, Lung, and Blood Institute(R01HL169277)、National Institute on Drug Abuse(NIDA)R01DA050676、R01DA057886以及National Cancer
伦理声明
本研究使用了来自公开可用基准数据集(2010 i2b2、2018 n2c2、2022 n2c2和RadGraph)的去标识化临床文本数据,以及来自佛罗里达大学健康集成数据存储库(UF Health IDR)的内部数据集。所有用于本研究的数据均按照Health Insurance Portability and Accountability Act(HIPAA)隐私规则进行了完全去标识化处理,未访问或分析任何受保护的健康信息(PHI)。
因为本研究
数据和代码的可用性
本研究中使用的五个数据集中有四个是公开可用的。2010 i2b2、2018 n2c2和2022 n2c2挑战数据集可以通过n2c2网站(https://n2c2.dbmi.hms.harvard.edu)获取。RadGraph数据集可以从PhysioNet(https://physionet.org/content/radgraph/1.0.0/)下载。UF Health数据集是使用佛罗里达大学健康集成数据存储库中的临床笔记内部创建的,由于UF政策原因不对外公开。
CRediT作者贡献声明
程鹏:撰写——审阅与编辑、撰写——初稿、可视化、