1. 引言
大型语言模型(LLM)如ChatGPT、Gemini、Llama、Claude、Grok和DeepSeek的迅速崛起,正在重塑已经充满人工智能创新的信息技术格局。这些进展推动了将LLM应用于加速药物开发的研究。然而,LLM虽然擅长整合外部知识并允许与用户进行自然的对话交互,但其训练需要海量数据集和高算力资源。尽管提供商会定期用新数据更新其LLM,但研究和临床应用需要一个具有最新信息的、领域专业化的知识库。有效利用组织内部知识和数据库是LLM面临的一个关键挑战。
检索增强生成(RAG)作为LLM的一种补充方法,允许对训练和生成所依赖的数据领域进行精确控制。RAG输出的来源可以轻松追溯到相应的源文档,其发现还可以进一步处理。RAG可以利用来自专业用户提供的信息源(如监管文件)的数据,并用于指导LLM。这些特性增强了能力、数据安全性和用户信任。集成RAG的方法有潜力被设计用于解决临床药理学和药代动力学研究中的任务特定需求和知识密集型问题。
本项重点试点研究旨在评估超越信息提取的RAG框架,使其能够在“人在回路”的工作流程中作为决策辅助工具使用。为了评估RAG输出的决策价值,我们测试了其在将测试文档与目标监管指导文件进行比较时的表现,并纳入了生成输出的精确度和相关性度量指标。
2. 方法
2.1 药品信息评估的数据集
我们创建了两个数据集来评估RAG系统。第一个数据集包含五种具有代表性且已获FDA批准的药物的药品说明书:阿达木单抗(HUMIRA,艾伯维)、甘精胰岛素(LANTUS,赛诺菲)、阿托伐他汀钙(LIPITOR,辉瑞)、阿普唑仑(XANAX,Upjohn,辉瑞)和舍曲林(ZOLOFT,辉瑞),这些药物目前仍在市场上销售。我们称此数据集为“批准数据集”。
第二个数据集由以下药物的说明书和FDA文件组成:伐地考昔(BEXTRA,Searle)、罗非考昔(VIOXX,默克)和曲格列酮(REZULIN,辉瑞),这些是因其在临床使用中出现不良事件而被FDA撤市或严格限制的典型药物。我们称此数据集为“撤市数据集”。
评估时,我们使用了《联邦法规汇编》第21篇:食品和药品,以及FDA关于适应症、特定人群使用、警告和注意事项的指导文件。
2.2 临床试验方案评估的数据集
我们从ClinicalTrials.gov下载了NCT03557281 “GSK3036656在药物敏感性肺结核受试者中的早期杀菌活性、安全性和耐受性”研究的方案和统计分析计划。该研究是一项评估Rifafour(一种由利福平、异烟肼、吡嗪酰胺和乙胺丁醇组成的固定剂量复方制剂)的2a期干预性研究。用于评估的监管指导文件是FDA的E9《临床试验统计原则》及其增补文件E9 (R1)。
2.3 药品信息评估系统的设计
系统使用LangChain平台实现,包含自然语言处理、RAG和LLM组件。NLP组件对指导和测试文档进行预处理。RAG从文档中检索与查询相关的上下文。通过结合角色设定、上下文、草稿和用户查询来设计提示词,然后输入LLM以获得输出。用户界面由Streamlit框架提供。
针对药品说明书,我们提交了三个独立的查询,分别关于药物的“适应症和用法”、“在特定人群中的使用”以及“警告和注意事项”部分。每个查询旨在引出相关事实的总结、对指导文件合规性的评估以及对缺失元素的批判。
我们使用ROUGE-L和METEOR两种指标来评估生成答案的质量。
2.4 临床试验方案评估系统的设计
系统设计与药品信息评估类似。我们提交了两个查询:查询1要求“提取并总结给定临床试验的临床试验方案和统计分析计划”;查询2要求“根据FDA E9临床试验统计原则,评估临床试验方案的统计分析计划”。
我们使用了DeepEval框架进行评估,采用了三个指标:答案相关性、忠实度和与临床药理学相关的上下文相关性。
2.5 独立验证
药品信息和临床试验方案评估结果由作者S.W.和A.G.B.进行验证。对HUMIRA和LIPITOR说明书相关部分的“缺失或不一致内容”回答进行了人工核对,临床试验方案的评估意见则与FDA E9指南进行了比对。
2.6 提示词变体
我们研究了提示词设计中两个特征(角色设定和包含事实检查清单)的变化对HUMIRA和LIPITOR评估结果的影响。
2.7 与GPT-4o的比较
我们将RAG系统与直接查询GPT-4o模型(不进行检索或基于规则的搜索)进行比较,以评估RAG架构的价值。
3. 结果
3.1 药物特性
批准数据集中的五种药物代表了不同的治疗类别和疾病适应症。撤市数据集包含两种COX-2抑制剂镇痛药(罗非考昔和伐地考昔)以及曲格列酮,它们均因临床使用中的不良事件被FDA撤市。
3.2 RAG系统描述
图1展示了用于药品信息和临床试验方案评估的RAG系统示意图。系统包含相互作用的自然语言处理、RAG和LLM组件。
3.3 药品信息评估
图2显示了药品说明书评估RAG系统用户界面的组成部分。
RAG系统正确识别了阿达木单抗的多种适应症以及其他药物较少的适应症。系统严格地根据指导文件中的各项要求对每份说明书进行了评判,在合规性满意时予以确认,并对每项缺陷提供了解释。值得注意的是,在针对阿达木单抗、甘精胰岛素和舍曲林的“特定人群使用”查询回复中,系统强调了儿科临床试验中所需的参与者同意和父母许可的伦理要求,但这并非标签要求的一部分。
对于撤市药物,RAG系统正确指出罗非考昔因心血管疾病风险增加而撤市,而伐地考昔则因心血管疾病风险及危及生命的皮肤反应(如史蒂文斯-约翰逊综合征)而撤市。曲格列酮则因肝毒性被撤市。RAG系统与ChatGPT的回答基本一致,但包含了更多临床细节。ROUGE-L和METEOR分数在可接受范围内。
3.4 临床试验方案评估
NCT03557281是一项评估GSK3036656在药物敏感性肺结核患者中的早期杀菌活性、安全性和耐受性的干预性研究。
图3是临床试验方案评估RAG系统的示意图。该系统被命名为PEARL。
对于查询1,生成的方案摘要包括研究设计、人群定义、治疗、剂量水平、给药途径和方案修订等内容。统计分析计划摘要概述了统计方法、主要和次要终点分析、药代动力学参数、缺失数据和异常值处理等。答案相关性和忠实度评分分别达到100%和95%,临床药理学指标为88%,反映了少量细节的遗漏。
对于查询2,RAG系统根据E9指南标准生成了反馈,并按重要性分为高、中、低类别。评估涵盖了样本量确定、统计分析方法、人群定义、安全性数据分析等关键要素。系统指出,样本量重新估计的方法未详细说明,这限制了可重复性和清晰度。在药代动力学部分,系统注意到未讨论体重指数作为协变量对结果的潜在影响,并建议将关键最低抑菌浓度发现纳入主报告。评估的准确性为85.7%,忠实度为100%,临床药理学指标较低,为65.9%,主要原因是缺少关于剂量递增统计方法和方案偏离处理的细节。
3.5 独立验证
对HUMIRA和LIPITOR说明书部分“缺失或不一致内容”回答的独立验证结果喜忧参半,且存在一些错误。对方案评估意见的独立验证确认其与FDA E9指南没有冲突。
3.6 提示词变体的影响
在批准数据集和临床试验方案评估的背景下,两种提示词变体的结果展示了设计优化对输出的影响。
3.7 与GPT-4o的比较
在药品信息评估方面,GPT-4o的结果与RAG系统各有特点。
在临床试验方案评估方面,由RAG系统生成的方案摘要与ChatGPT-4o生成的摘要基本一致,但形式不同。ChatGPT-4o依赖更广泛的监管文件,而RAG系统仅依赖FDA E9。ChatGPT-4o的评估更具描述性且批评性较弱,而基于RAG的评估则更强调可操作的改进指导和决策支持。
4. 讨论
在这项试点研究中,我们评估了集成的RAG-LLM系统。一个系统评估药品说明书和临床试验方案与监管指南的符合程度,另一个系统评估方案与最佳实践建议的合规性。我们检查了文档与这些指南和标准语义意图的契合度。
一个关键限制是我们只能评估少数几种撤市药物。此外,我们虽然评估了RAG在监管文件和临床试验方案任务中的应用,但该方法也可能用于其他药物开发场景,例如临床试验设计、临床前阶段靶点生物信息学总结等。我们的方法还可能使申办方能够在FDA最近推出的、用于科学评估和临床方案审查的安全LLM工具ELSA的背景下,检查文件的合规性。
尽管LLM是在广泛来源、未经整理的互联网数据集上训练的,但它们仍然能有效解决药代动力学和临床药理学等专业领域的复杂研究问题。比较RAG与LLM的优势和劣势是有益的。RAG可以整合来自多样化、用户相关的数据集和文档集合的信息,而无需重新训练底层模型,有助于克服利用组织知识的挑战。
我们为本次试点演示构建了独立的药品信息审查和临床试验方案评估RAG系统。这种模块化设计支持任务特定的界面和提示词。两项任务差异显著:药品说明书高度结构化、标准化,提取信息需细致;而方案评估则依赖于技术性的生物统计专业知识。
我们发现有必要使用专门的NLP工具包来处理内容组织的多模态性(如表格、列表、图表),以改善RAG实施的结果。然而,研究中未处理嵌套表格中的药代动力学分析和图表中的药效学数据。未来的高级应用可能需要提取图形和方程内容的工具。
总之,基于RAG的系统可以使产品申办方在向监管机构提交之前,系统地审查药品信息文件(如说明书)中的合规性薄弱环节。在更广泛的数据集和治疗领域进行额外的验证研究,对于释放其在药物开发中的潜力至关重要。然而,LLM和智能体人工智能的进步可能会缩小RAG系统保持竞争优势的应用领域范围。