优化健康技术评估中证据综合的筛选效率：一项使用ASReview的模拟研究

时间：2026年6月4日

来源：International Journal of Medical Informatics

编辑推荐：

Júlia Meller Dias de OLIVEIRA | Arthur Thives MELLO | Daniel Henrique SCANDOLARA | Ianka Cristina CELUPPI | Vanessa Pereira Corrêa RAMPINELL

巴西圣卡塔琳娜联邦大学Bridge实验室，弗洛里亚诺波利斯

摘要

目的

本研究评估了在健康技术证据综合中使用基于主动学习的标题和摘要筛选时的模型配置和停止规则决策。

方法

我们使用来自健康技术系统评价、范围评价和概述评价的七个预标记数据集进行了回顾性模拟。模拟使用ASReview Makita实现，并将基于独热编码或词频-逆文档频率的轻量级配置与朴素贝叶斯、逻辑回归、随机森林和支持向量机分类器进行了比较。性能评估使用了标准化召回率遗憾（“损失”）、在95%召回率（WSS@95）和100%召回率（WSS@100）时节省的工作量、早期召回率以及K%连续无关停止规则。对于排名最高的配置，进行了重复模拟和探索性数据集级分析。

结果

SVM + TF-IDF（包含二元组）具有最有利的全局性能，平均损失为0.08（95%置信区间0.06至0.09），WSS@95为0.70（95%置信区间0.59至0.79），WSS@100为0.50（95%置信区间0.30至0.69）。在固定的7%连续无关停止规则下，所有数据集在主要分析中至少达到了95%的召回率，平均召回率为98%。在重复模拟中，固定的7%规则达到了97%的平均召回率；然而，一个非常低流行率的数据集直到K = 33时才达到95%的召回率。探索性分析表明，相关记录的流行率、相关记录之间的文本相似性以及摘要的完整性可能有助于解释模型性能和停止规则可靠性的变化，尽管这些分析是假设生成的。

结论

基于主动学习的筛选减少了这些健康技术数据集的工作量，但其使用需要明确的实施选择。SVM + TF-IDF（包含二元组）是最实用的初始配置，7%连续无关规则是一个有用的停止启发式方法。然而，停止决策应取决于评价对遗漏研究的容忍度、数据集质量、主题异质性以及可用的保护措施，而不仅仅是基于固定阈值。

引言

健康技术领域不断增长的证据量强调了证据综合的必要性。同时，健康技术研究本质上是跨学科的，汇集了不同的方法、认识论和概念框架[1]。因此，相关研究可能分散在临床、公共卫生、卫生服务、信息学、实施和政策导向的文献中，经常使用碎片化和异构的术语来描述相关概念[2]。这对证据综合有重要影响。为了保持高召回率，评审者通常需要纳入大量术语、同义词和受控词汇，从而导致大量的搜索结果[3]，[4]。在这种情况下，基于主动学习的工具应运而生，大大减少了必须手动筛选的记录数量，同时保持了识别相关研究的高召回率[5]。

同时，证据综合领域的权威机构只在其使用不会损害方法论严谨性和完整性时才支持人工智能的负责任使用[6]，[7]。然而，现有工具所需的测试和验证仍然经常缺失或不完整[8]。这在健康技术证据综合中尤为重要，因为文献的跨学科性质和使用的异构术语可能会影响主动学习模型所依赖的文本模式，从而影响先前评估的结果如何适用于这一背景。主动学习工具已经得到了广泛测试，尤其是在模拟研究中，但这些评估通常不能为实施决策提供一致的支持，因为它们没有使用可比较的指标和程序跨数据集比较模型[9]。这是一个根本问题，因为不同的特征提取器和分类器组合可以产生效果不同的模型[10]。此外，使用异构的性能指标和非标准化的模拟协议限制了研究之间的可比性[9]。

ASReview是一个基于预测性人工智能技术的开源工具，为证据综合的研究筛选阶段提供主动学习算法。更具体地说，在ASReview中，评审者提供一组初始的标记记录（先验），之后软件会迭代训练分类器并对剩余记录按估计的相关性进行排名，首先呈现最有可能符合条件的记录[5]。通过使用这个工具，评审者可以选择在判断出指定数量的连续记录不合格后停止筛选，假设不太可能找到其他相关研究。另一方面，定义停止点仍然是实施基于主动学习的筛选中最具挑战性的方面[11]。

模拟证据表明，ASReview可以显著减少筛选工作量，但模型性能在不同数据集和配置之间有所不同。Ferdinands及其同事[12]发现，七种ASReview配置在六个系统评价数据集中的表现都优于随机筛选，其中朴素贝叶斯（NB）和词频-逆文档频率（TF-IDF）的组合表现最好。然而，ASReview的默认配置已经改变。在ASReview LAB v.2中，de Bruin及其同事[13]报告称，模型优化集中在两种表现最好的轻量级TF-IDF组合上，即TF-IDF与朴素贝叶斯（NB）和TF-IDF与支持向量机（SVM），在更新TF-IDF表示以包括单词和二元组之后。在他们的验证研究中，SVM + TF-IDF的表现优于NB + TF-IDF，并被选为新的默认ELAS-Ultra配置。最近的大规模模拟[10]没有发现普遍最优的模型，有14种不同的配置在至少一个数据集中实现了最低的损失。当计算效率很重要时，轻量级TF-IDF基模型仍然具有吸引力，而基于嵌入的配置对于难以找到的记录和模型切换工作流程似乎很有用。

停止规则尚未完全确立。SAFE提供了一个结合了多种保护措施的保守框架，例如至少筛选数据集的10%并在最后50条记录中没有找到相关记录，但这些阈值是可调整的而不是通用的[11]，最近的模拟工作建议修改SAFE框架的实现[14]。其他模拟评估了基于百分比的规则。例如，Campos及其同事[15]发现，平均而言，检索95%的相关记录需要7%连续无关记录，而在教育数据集中，筛选20%加上5%连续无关记录可以带来有利的工作量减少。因此，停止阈值最好理解为特定于上下文的参数，而不是固定规则。

尽管这一领域的模拟研究数量不断增加，但文献仍然对健康技术证据综合中的实施决策提供的支持有限。特别是，关于不同模型配置之间的相对表现以及不同停止规则如何影响工作量减少与遗漏符合条件的研究风险之间的权衡仍存在不确定性。本研究不仅简单地考察了主动学习在这一背景下的前景，还提供了在共同模拟框架下对这些实施选择的比较证据。为此，我们使用我们研究小组近年来进行的证据综合项目生成的一系列预标记证据综合数据集进行了模拟，以支持巴西公民电子健康记录e-SUS初级医疗保健的发展[16]。使用这些数据集，我们比较了ASReview模型配置在节省努力和筛选成本方面的表现，并检查了哪些停止规则在这种模拟设置中提供了更有利的召回率和努力之间的权衡。

部分片段

方法论

我们进行了一项回顾性模拟研究，以评估健康技术证据综合中基于主动学习的标题和摘要筛选。该研究比较了不同的ASReview模型配置，评估了停止规则的性能，并对可能解释模型性能和停止规则可靠性的数据集特征进行了探索性分析。模拟使用Python（v. 3.11.2）、ASReview（v. 2.1.1）和ASReview

执行和运行时间

在主要分析的63次模拟中，每次模拟的总运行时间为53小时，平均运行时间为50 ± 93分钟（范围0.05至443分钟）。基于Corrêa等人2025年的数据集的模拟占总运行时间的22小时，平均运行时间为145 ± 179分钟（范围2至443分钟）。在配置中，LR + OHE、RF + TF-IDF、RF + OHE和LR + TF-IDF的总运行时间为51小时，而SVM + TF-IDF（包含二元组）的总运行时间为30分钟，平均为

讨论

这项模拟研究评估了将不同主动学习配置和停止规则应用于健康技术证据综合的标题和摘要筛选数据集时的表现。研究结果为评审团队在使用ASReview时面临的两个决策提供了证据：使用哪种模型配置以及何时停止筛选。在这种模拟设置中，SVM + TF-IDF（包含二元组）在损失、节省的工作量和早期

CRediT作者贡献声明

Júlia Meller Dias de OLIVEIRA：撰写 – 审查与编辑、撰写 – 原稿、验证、方法论、调查、形式分析、概念化。Arthur Thives MELLO：撰写 – 审查与编辑、撰写 – 原稿、验证、方法论、调查、形式分析、概念化。Daniel Henrique SCANDOLARA：撰写 – 审查与编辑、撰写 – 原稿、验证、方法论、调查、形式分析、概念化。Ianka Cristina CELUPPI：