使用Elicit AI研究助手在系统综述中进行数据提取:一项跨环境与生命科学领域的可行性研究

时间:2026年5月30日
来源:Research Synthesis Methods

编辑推荐:

系统综述、证据图和荟萃分析中的数据提取过程耗时且容易出现人为错误或主观判断。大语言模型(Large Language Models, LLMs)提供了节省时间的潜力,但其性能仅在有限的平台、学科和综述类型中得到了评估。研究人员使用来自生命与环境科学领域七篇系统

广告
   X   

系统综述、证据图和荟萃分析中的数据提取过程耗时且容易出现人为错误或主观判断。大语言模型(Large Language Models, LLMs)提供了节省时间的潜力,但其性能仅在有限的平台、学科和综述类型中得到了评估。研究人员使用来自生命与环境科学领域七篇系统综述的期刊文章,评估了Elicit平台在不同数据提取任务上的表现。人工提取的数据被作为金标准。对于每篇综述,研究人员使用八篇文章进行提示词(prompt)开发,另外八篇文章进行测试。初始提示词经过迭代优化,直至达到超过87%的准确率或最多五轮迭代。随后,研究人员测试了提取的准确性、不同用户账户间的可重复性,以及Elicit高准确性模式(high-accuracy mode)的效果。在评估的90个提示词中,有70个在与金标准比较时超过了87%的准确率,但在新一组文章上测试时,准确率往往下降。使用不同Elicit用户账户重复数据提取,对提取值的同意率达到90%,但支持性引文(supporting quotes)和推理(reasoning)仅在46%和30%的案例中匹配。在高准确性模式下,数值匹配率降至77%,引文匹配率仅为10%,推理匹配率为0%。提取准确率未因数据类型不同而存在差异。Elicit还帮助识别了金标准数据中的八个(<1%)错误。研究人员的结果表明,Elicit可以补充但不能替代人工数据提取者。Elicit可能最适合用于合理性检查(sanity checks)和评估数据提取方案的清晰度。提示词必须经过微调并进行独立验证。
本文是一篇关于评估AI工具Elicit在系统综述数据提取中应用的可行性研究,发表于《Research Synthesis Methods》期刊。

系统综述作为生成高质量循证证据的核心方法,其数据提取环节通常需要大量人力,且极易因人为因素引入错误或主观偏差。随着证据基础规模不断扩大,对证据合成的及时性和高效性需求日益增长。大型语言模型(LLM)作为一类能够处理和学习海量数据的AI技术,被提议用于自动化或半自动化系统综述的各个环节,以应对上述挑战。然而,现有评估主要集中在少数平台和学科,且关于AI在数据提取中的准确性、可重复性及其对证据合成可靠性影响的证据仍然不足。特别是,针对专为学术文献证据合成设计的平台Elicit,其性能评估尚不充分,尤其在环境与生命科学等非医学领域。因此,研究人员开展了本项研究,旨在系统评估Elicit平台在多样化数据提取任务中的有效性,并考察其结果的可重复性以及算法变更带来的影响。

为了实现上述目标,研究人员设计了一项基于预注册协议的可行性研究。研究的核心数据来源于七篇已发表的、涵盖不同主题的系统综述或荟萃分析,这些综述涉及生态学、进化生物学和环境科学领域,且均配有经人工双重提取或交叉核对的原始数据。研究人员首先从每篇综述纳入的文献中,随机抽取八篇用于提示词开发(训练集),另外八篇用于测试(测试集)。在提示词开发阶段,研究人员针对每篇综述的十个变量,在Elicit中创建并迭代优化提取提示词,直至其准确性相对于人工提取的金标准数据达到预定阈值(>87%)。随后,在测试阶段使用这些优化后的提示词,在新样本上评估Elicit的提取准确性。为检验可重复性,研究人员使用不同的Elicit用户账户重复了测试(RETEST阶段),并在Elicit升级其底层算法、全面启用高准确性模式后,再次重复了所有测试(HATEST阶段)。所有统计分析均在R v.4.5.0环境中完成。研究特别关注了与Elicit Plus订阅计划(每月12美元)功能相匹配的提取任务规模,并严格遵循了AI在证据合成中负责任使用的相关建议。

研究结果揭示了Elicit应用的几个关键方面。首先,在提示词开发阶段,最终有70个变量(共90个测试变量)在五轮迭代内达到了预设的准确率门槛,总体成功率为78%。然而,研究人员注意到,原始综述中用于构建提示词的变量元数据(metadata)往往描述模糊,需要投入大量精力为Elicit创建清晰、精确的提示词,这引发了对已发表综述数据可重用性和可重复性的担忧。其次,当使用相同的提示词在测试阶段应用于一组新的研究文章时,近三分之一变量的准确性有所下降,表明提示词可能对特定文章集过拟合。第三,在使用相同提示词和源文件、但通过不同Elicit用户账户进行重复提取时,90%的提取数值(476/536)保持了一致。然而,Elicit提供的支持性引文和推理文本在重复测试中匹配率分别仅为46%和30%,显示出文本输出层面较低的可重复性。第四,在启用高准确性算法模式后,77%的提取数值(412/536)与之前的测试结果完全匹配,但整体相对于人工金标准的准确率反而略有下降(从86.6%降至82.1%),且支持性引文和推理文本的匹配率极低(分别为10%和0%)。此外,通过交叉核对,研究人员还发现并修正了人工提取金标准中的八个错误(<1%),凸显了Elicit作为辅助核查工具的价值。

研究人员认为,本研究结果与其他评估AI数据提取技术的研究基本一致,并补充了针对Elicit的专门评估。研究指出了Elicit应用的几个挑战和局限。包括可能产生的“幻觉”(hallucinations),即生成原文中不存在或被错误表述的信息;对文本信息的误解或过度解读,例如将伦理批准误判为研究方案注册;以及受限的答案结构格式,Elicit在提取分类变量时最多允许八个选项,且无法强制单值输出,导致可能需要进行额外的自由文本解析和重新编码。此外,Elicit无法从图表、补充材料或外部平台获取数据,也无法处理需要复杂解读或计算的数值(如效应量),在面对较旧或结构化较差的文档时提取能力也可能受限。研究也强调了在提示词开发和测试阶段的时间投入成本,需要权衡其对于大规模系统综述(涉及数百篇研究)是否真正能节省总时间。研究的局限性包括每个阶段评估的文章数量相对较少,且未评估用于计算效应量的数值提取。

综上所述,研究人员得出结论:Elicit平台在数据提取中展现出潜力,但存在显著局限。开发出达到预定准确率的提示词需要大量努力,提取准确性存在较大差异,不同算法会产生不同结果,尽管跨用户账户的数值提取可重复性较高。鉴于底层算法的变更可能影响性能和可重复性,研究人员建议将Elicit整合到一个修改后的系统综述工作流程中,主要用作合理性检查工具,或在大规模系统综述中作为人工提取者的辅助或第二提取者,再由第三审阅者协调两者间的差异,从而在保持高准确性的同时提升效率。Elicit目前无法完全替代人工数据提取,其使用必须谨慎,并需进行人工监督。

生物通微信公众号
微信
新浪微博


生物通 版权所有