在医学研究的广阔领域中,补充医学(Complementary and Alternative Medicine,CAM)正逐渐崭露头角。它凭借独特的疗效和安全性,受到越来越多临床医生和患者的青睐。然而,这一领域却面临着诸多挑战。一方面,高质量证据的匮乏,使得临床实践缺乏足够的支撑。另一方面,数据提取和偏倚风险评估(Risk of Bias,ROB)的过程繁琐复杂,需要独立的评审人员花费大量时间和精力,尤其在 CAM 研究中,复杂的专业术语和多语言文献更是增加了数据提取的难度。为了解决这些难题,兰州大学的研究人员展开了一项意义重大的研究。
研究人员旨在探索大语言模型(Large Language Models,LLMs)在 CAM 数据提取和 ROB 评估中的应用潜力。他们选取了 107 项随机对照试验(Randomized Controlled Trials,RCTs),这些试验涵盖了多种 CAM 干预措施,如身心实践、草药煎剂和天然产品等。研究使用了两种 LLMs——Claude-3.5-sonnet 和 Moonshot-v1-128k,并将 LLM-only 和 LLM 辅助方法与传统方法进行对比。
研究中用到的主要关键技术方法包括:利用光学字符识别(Optical Character Recognition,OCR)软件将 PDF 文件转换为文本,以便 LLMs 进行处理;采用分层随机抽样的方法从 Cochrane 系统评价中选取样本;通过迭代试点测试优化提示词,引导 LLMs 进行数据提取和 ROB 评估 ;使用 R 软件进行数据分析,量化准确率、计算率差(Rate Difference,RD)等指标。
研究结果如下:
- 数据提取准确性:Claude-3.5-sonnet 的总体准确率为 96.2%,Moonshot-v1-128k 为 95.1%,二者存在显著差异。在各领域中,Moonshot-v1-128k 的结果领域准确率最高,方法领域最低。经过研究人员优化后,LLM 辅助的数据提取准确率提升至 97.9%,显著高于传统方法预期的 95.3%,尤其在方法和数据分析领域提升明显123。
- ROB 评估准确性:Claude-3.5-sonnet 的准确率为 96.9%,Moonshot-v1-128k 为 95.7%,差异不显著。Moonshot-v1-128k 在序列生成领域准确率最低,部分领域敏感性和 F 分数较低。经优化,LLM 辅助的 ROB 评估准确率提高到 97.3%,高于传统方法的 90.0%,序列生成领域提升幅度最大45。
- 效率提升:与传统方法相比,LLM 模型在数据提取和 ROB 评估上大幅节省时间。数据提取时间从 86.9 分钟缩短到 14.7 分钟,ROB 评估时间从 10.4 分钟缩短到 5.9 分钟7。
- 亚组分析:较高的 PDF 识别率对 Moonshot-v1-128k 的提取准确性有积极影响,Claude-3.5-sonnet 在提取英文 RCT 数据时表现更优。此外,LLM 辅助评估对中文发表的 RCT 准确性更高689。
研究结论表明,Claude-3.5-sonnet 和 Moonshot-v1-128k 在数据提取和 ROB 评估方面展现出较高的准确性,LLM 辅助方法在准确性和效率上显著优于传统方法。这一研究成果为证据合成提供了更高效、准确的方法,尤其在 CAM 等复杂领域意义重大。它有助于提升临床实践和指南制定的质量,为患者提供更可靠的医疗建议。同时,研究也指出了局限性,如可能存在语言相关的偏倚,未来研究可探索更多高级模型的应用,以增强研究结果的普适性。