Madhu Babu Sikha | Amara Tariq | Allison W. Kurian | Kevin C. Ward | Theresa H.M. Keegan | Daniel L. Rubin | Imon Banerjee
美国亚利桑那州菲尼克斯市梅奥诊所放射科
摘要
目的
准确记录乳腺癌的远处复发部位对于评估治疗效果和研究成果至关重要。然而,此类信息嵌入在非结构化的临床笔记中,导致手动提取工作量庞大。大型语言模型(LLMs)为从异构临床文本中提取复杂信息提供了可扩展的解决方案;然而,通用LLMs往往缺乏准确解读肿瘤学记录所需的专门临床推理能力。本研究旨在开发一个基于LLM的框架,以自动从自由文本记录中提取远处复发部位。
材料与方法
我们使用了梅奥诊所复发性乳腺癌患者的临床笔记、病理学和放射学报告(n = 766例)进行模型开发,并在内部保留样本(n = 112例)和外部斯坦福医学队列(n = 110例)上评估了模型的泛化能力。为了跨疾病领域进行适应,我们还在前列腺癌患者(n = 49例)上进行了验证。我们提出的框架采用了BioLinkBERT预训练语言模型(PLM)作为核心,结合弱监督和逐轮熵优化来应对标记数据有限以及复发部位类别不平衡的问题。经过微调的模型与最先进的模型(包括Llama2-7B、Llama-3-8B和MedAlpaca)进行了精确度、召回率和F1分数的比较。
结果
微调后的模型在识别多部位远处复发方面优于通用和特定领域的LLM基线模型。领域内验证显示F1分数有显著提升(平均为0.78),尤其是在罕见复发部位方面。该模型在外部斯坦福队列和前列腺癌患者数据上也表现出色,分别获得了0.83和0.93的F1分数。
结论
本研究提出了一个高效的、弱监督的LLM框架,能够准确提取转移性复发部位,从而减少了对人工病历审查的依赖。结果表明,经过领域意识弱监督优化的相对较小的LLM,在复杂肿瘤学信息提取方面可以超越大型模型。该模型以平台无关的Docker镜像形式发布,以支持与癌症登记系统的无缝集成。
引言
乳腺癌复发是指在初次诊断和完成主要治疗后癌症再次出现。复发可以是局部的,也可以是远处的。局部复发是指癌症在原发乳腺部位的同一侧的乳房、胸壁或腋窝淋巴结中复发。如果恶性肿瘤扩散到远离原发肿瘤部位的器官或组织,则称为远处复发或转移。根据2017年1月1日的最新统计数据,美国约有154,794名女性患有转移性乳腺癌,其中四分之三(约116,000人)最初患有I-III期疾病,后来出现了复发[1][2]。尽管过去10年乳腺癌的整体死亡率显著下降,但复发后的5年死亡率仍然很高——早期复发约为58%,晚期复发约为38%[3]。死亡率还因治疗途径和患者人口统计因素而大不相同[4][5][6];然而,这一领域的流行病学研究往往受到样本量小的限制,因为跟踪乳腺癌的长期复发是一项复杂且成本高昂的任务[7]。
因此,大规模整理乳腺癌复发数据对于揭示疾病复发的复杂模式至关重要[8]。这有助于更深入地了解与共病的相关性、不同治疗途径的影响以及与基因特征之间的关联。提取远处复发部位还有助于理解疾病进展的模式,并支持未来临床护理的改进。这种理解最终可以支持更加个性化和有效的患者护理。然而,手动整理长期复发数据需要大量的时间和资源来跟踪来自不同亚专业的临床笔记,既耗时又昂贵。由于文档的流动性、不同部门、专业、提供者和机构之间的语言模式和笔记模板存在很大差异,以及医学语言的固有复杂性,以及需要整合来自多个不同来源的临床背景来跟踪疾病进展,因此从冗长的自由文本临床笔记中自动提取远处复发部位极具挑战性[9][10]。然而,有效的自动化解决方案可以通过加速从临床叙述中提取长期结果的过程来改善患者管理和临床研究,同时减少专家干预的需求。在我们之前的工作中,我们开发了一个自动NLP流程来提取乳腺癌复发时间线,但由于数据来源的复杂性以及需要复杂的推理,未能提取部位信息[11][12]。提取远处癌症复发部位具有挑战性,因为它们可能出现在多个解剖位置,文档记录不一致,且需要从各种来源(包括临床笔记、病理报告和放射学发现)中深度整合和整合数据[13]。虽然已经提出了一些基于规则和深度学习的方法[12][14][15][16]来识别复发部位,但它们的外部验证有限,错误表征不足,实施方法的报告也不完整,这些都是在大规模应用之前必须解决的显著问题。
最近,LLMs的进步大幅扩展了基于文本和语言的自动化解决方案的规模和复杂性,这在各种生物医学应用中得到了体现,例如用于疫苗教育的LLM驱动的聊天机器人[17][18]、合成数据增强的表型提取[19]、检索增强型生物医学文献摘要以及用于生物医学关系提取的提示调整模型[20][21]。目前的研究工作集中在根据临床挑战定制和应用LLMs[22][23][24][25][26]上。如果有标记的训练数据,可以通过提示框架或微调来直接使用LLMs[27];然而,这样的现成LLMs往往无法理解复杂领域(如肿瘤学)的临床细微差别[28][29][30][31]。
上下文学习(ICL)是一种机器学习方法,模型在特定任务或情境的上下文中动态学习或适应新信息,而无需在大型数据集上进行重新训练[32]。在LLMs的背景下,ICL可以通过提示工程实现,其中下游任务在提示中指定,并附带一些输入-输出对来指导模型理解,而无需修改模型权重。相比之下,微调过程中通过让模型接触与新标注数据相关的内容来更新LLM权重。微调的一个主要问题是它需要大量带有可靠标注的数据,而ICL只需要少量标注样本来代表任务[33]。因此,ICL是许多医学和医疗相关语言任务的理想起点,因为这些领域的专家标注数据通常很少,而且当标签较少时收集的标签往往高度不平衡。我们认为,从自由文本临床笔记中提取远处复发的解剖部位就是这样一个问题。然而,ICL也存在关键限制,因为它主要依赖于LLM在自我监督预训练期间获得的知识,这些知识通常不特定于下游任务,只能提供通用语言空间的广泛概览。此外,最近的研究还发现ICL的性能不稳定,且对提示中使用的样本输入-输出对和顺序非常敏感[34][35]。
知识蒸馏(KD)作为一种替代策略,可以在数据受限的环境中利用大型模型的能力,其中较大的教师模型将知识传递给较小的学生模型[36]。在传统的KD[37]中,学生模型通过蒸馏损失被训练来模仿教师的软输出logits,从而近似教师的预测分布。这种范式已扩展到大型预训练语言模型,产生了压缩但竞争力强的变体,如DistilBERT[38]、TinyBERT[39]和MiniLM[40]。最近,KD框架已经超越了logit匹配。LLMs不再直接用于蒸馏模型输出,而是越来越多地用于数据注释或合成标签生成,之后在整理好的数据集上训练较小的学生模型[41][42][43]。这种以数据为中心的蒸馏方法将知识传递过程从输出模仿转变为数据集构建,可能提高可扩展性和领域适应性。尽管前景广阔,但ICL和基于KD的方法仍存在显著限制,包括对提示设计的敏感性、对大型教师模型的依赖性、跨领域的稳定性有限,以及处理临床数据中严重类别不平衡的挑战[34][35]。
在这项研究中,我们提出了一个用于解剖部位识别的NLP流程,结合了ICL和预训练语言模型(PLMs)的弱监督微调。为了解决弱标签中的严重类别不平衡问题,我们在训练过程中加入了基于熵的优化。我们提出了一个多阶段开发流程,将ICL和特定任务的微调结合起来,从自由文本临床笔记以及放射学和病理学报告中提取远处复发的解剖部位。我们在领域内(乳腺)的内部和外部数据集以及领域外(前列腺)任务上比较了较大的LLMs。我们还将提出的弱微调与ICL的监督提示优化策略进行了比较。
• 多阶段开发流程 ,结合了初步的ICL评估和特定任务的微调,以提高从异构临床数据源(包括临床笔记、放射学报告和病理学报告)以及领域内(乳腺、内部/外部)和领域外(前列腺)数据集中的提取性能。
• 弱监督微调框架 ,通过整合来自多个不同来源的临床背景,准确提取远处癌症复发的解剖部位。
• 基于熵的优化策略 ,用于解决弱标记临床数据中固有的严重类别不平衡问题。
部分片段
队列
为了进行训练和验证,我们获得了梅奥诊所和斯坦福大学的独立IRB批准,并免除了知情同意的要求。为了获得现实的性能信息,我们仅分析了具有远处复发(转移性)的患者的数据,而不是包括所有复发率低于10%的患者,因为这可能会夸大模型性能。总共使用了766例梅奥诊所的乳腺癌转移患者数据作为训练集。
定量性能 − ICL
图2展示了使用两种LLM的ICL实验结果,表明MedAlpaca的表现优于Llama2,这突显了针对特定临床任务的领域特定预训练LLMs的有效性。随着提示中示例数量的增加,性能有所提高,在6个示例时达到峰值,之后性能开始下降。MedAlpaca-7b在6个和10个示例的提示下,先呈现阳性病例,然后是阴性病例(未提及解剖结构 ),取得了
讨论
通过整合来自多个来源的信息(肿瘤学笔记、护理总结笔记、病理学和放射学报告)来提取远处复发的解剖部位是一个极其具有挑战性的NLP问题。我们提出了一个完全自动化的解决方案,使用相对较小的LLM并在弱监督下进行提取,利用熵优化来提取乳腺癌转移部位,这些部位的专家注释有限且分布极不平衡(图5)。
结论
我们提出的框架可用于识别原发性乳腺癌患者的远处复发时间线,并可推广到前列腺癌患者。当将癌症患者的纵向临床笔记、放射学和病理学报告输入到该框架时,它可以提取每个复发间隔的复发部位(图5)。我们的流程自动提取远处复发部位,大大减少了对手动病历审查的依赖。
CRediT作者贡献声明
Madhu Babu Sikha: 写作 - 审稿与编辑、撰写原始草稿、可视化、验证、软件、方法论、调查、概念化。
Amara Tariq: 写作 - 审稿与编辑、撰写原始草稿、可视化、验证、方法论、概念化。
Allison W. Kurian: 写作 - 审稿与编辑、撰写原始草稿、可视化、验证、项目管理、资金获取、数据整理。
Kevin C. Ward: 写作 - 审稿与
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了NIH/NCI的支持,项目编号为U01 CA269264-01-1,“用于乳腺癌患者自动结果整理的灵活NLP工具包”(项目负责人:I.B.)。斯坦福Oncoshare数据库得到了乳腺癌研究基金会、Susan and Richard Levy Gift Fund 、Suzanne Pride Bryan Breast Cancer Research Fund 、Jan Weimer Junior Faculty Chair in Breast Oncology 、加州大学Regents的California Breast Cancer Research Program (16OB-0149和19IB-0124)的支持。
打赏