在医学研究的长河中,临床治疗的进步离不开临床试验的推动。然而,当下临床研究正面临着严峻挑战:约 80% 的临床试验难以按时完成招募目标,患者参与率仅约 5%,且 41.3% 的美国成年人对临床试验知之甚少,信息鸿沟成为阻碍患者参与的重要因素。传统基于复杂标准评估患者 eligibility 的过程不仅困难重重,还耗费大量资源。如何让患者更便捷地找到适合自己的临床试验,成为亟待解决的难题。
为了打破这一困境,来自相关研究机构的研究人员开展了一项极具创新性的研究。他们聚焦于利用大语言模型(Large Language Models, LLMs)构建一个患者主动参与的临床试验检索系统 ——Patient2Trial,旨在让患有特定疾病的患者通过完成疾病特异性问卷,直接找到符合条件的临床试验。该研究成果发表在《Informatics in Medicine Unlocked》,为临床研究领域带来了新的曙光。
研究人员采用了一系列关键技术方法。首先,从 ClinicalTrials.gov 获取临床试验 eligibility criteria,并从美国国家标准与技术研究院(NIST)举办的文本检索会议(TREC)2023 临床试验赛道获取涵盖青光眼、焦虑症、慢性阻塞性肺疾病、乳腺癌、Covid - 19、类风湿关节炎、镰状细胞贫血和 2 型糖尿病等八种疾病的模拟患者问卷(Patient topics)。然后,运用生成式预训练 Transformer 模型 GPT - 4 开发系统,通过定量和定性评估方法对 37 个患者主题进行分析。
研究结果
系统整体性能表现出色
经过严格评估,Patient2Trial 系统展现出了强大的检索能力。其整体 Precision@10(相关试验比例)达到 0.7351,NDCG@10(考虑相关试验排名顺序)为 0.8109,这表明系统能够有效地为患者检索并排序合适的试验列表。值得一提的是,在 37 个患者主题中,有 8 个主题的前 10 名检索试验全部相关,充分证明了系统的准确性和可靠性。
不同疾病领域表现有差异
系统在不同疾病领域的表现呈现出一定差异。其中,在乳腺癌领域表现最佳,NDCG@10 达到 0.9347,Precision@10 为 0.84;而在 2 型糖尿病领域表现相对较低,NDCG@10 为 0.61,Precision@10 为 0.475。推测可能是乳腺癌主题的信息相对更容易匹配。
错误分析与系统优势并存
通过定性错误分析,发现错误主要分为四类,包括难以正确匹配纳入标准、患者信息缺乏重要纳入标准、未能匹配目标疾病 / 人群以及未能正确匹配排除标准等。但同时,系统也展现出显著优势,例如具有临床推理能力,能够进行医学知识映射,将患者具体信息与试验的广泛标准进行匹配,还能比较不同单位表达的临床信息等。
研究结论与讨论
这项研究充分证明了将大语言模型整合到临床试验检索系统中的可行性。Patient2Trial 系统能够为多种疾病的患者识别和排序合适的试验,为解决临床 trial 招募难题提供了新的思路和方法。然而,研究也存在一定局限性,如知识映射和疾病特异性指南由临床专家手动构建,未来可探索自动知识整合技术;候选试验生成依赖传统词汇检索模型 BM25,后续可尝试更先进的检索方法;研究仅使用了八种疾病的模拟患者问卷,未来需在更多疾病和真实患者数据中评估系统的通用性。
尽管如此,该研究为临床研究领域带来了重要启示。大语言模型在临床试验中的应用潜力巨大,Patient2Trial 系统有望加速患者与试验的匹配过程,为患者和临床医生提供有价值的试验推荐,提升患者筛查效率,推动临床研究的发展。随着技术的不断进步和研究的深入,相信大语言模型将在医学领域发挥更加重要的作用,为患者带来更多的治疗希望。
打赏