健康技术领域不断增长的证据量强调了证据综合的必要性。同时,健康技术研究本质上是跨学科的,汇集了不同的方法、认识论和概念框架[1]。因此,相关研究可能分散在临床、公共卫生、卫生服务、信息学、实施和政策导向的文献中,经常使用碎片化和异构的术语来描述相关概念[2]。这对证据综合有重要影响。为了保持高召回率,评审者通常需要纳入大量术语、同义词和受控词汇,从而导致大量的搜索结果[3],[4]。在这种情况下,基于主动学习的工具应运而生,大大减少了必须手动筛选的记录数量,同时保持了识别相关研究的高召回率[5]。
同时,证据综合领域的权威机构只在其使用不会损害方法论严谨性和完整性时才支持人工智能的负责任使用[6],[7]。然而,现有工具所需的测试和验证仍然经常缺失或不完整[8]。这在健康技术证据综合中尤为重要,因为文献的跨学科性质和使用的异构术语可能会影响主动学习模型所依赖的文本模式,从而影响先前评估的结果如何适用于这一背景。主动学习工具已经得到了广泛测试,尤其是在模拟研究中,但这些评估通常不能为实施决策提供一致的支持,因为它们没有使用可比较的指标和程序跨数据集比较模型[9]。这是一个根本问题,因为不同的特征提取器和分类器组合可以产生效果不同的模型[10]。此外,使用异构的性能指标和非标准化的模拟协议限制了研究之间的可比性[9]。
ASReview是一个基于预测性人工智能技术的开源工具,为证据综合的研究筛选阶段提供主动学习算法。更具体地说,在ASReview中,评审者提供一组初始的标记记录(先验),之后软件会迭代训练分类器并对剩余记录按估计的相关性进行排名,首先呈现最有可能符合条件的记录[5]。通过使用这个工具,评审者可以选择在判断出指定数量的连续记录不合格后停止筛选,假设不太可能找到其他相关研究。另一方面,定义停止点仍然是实施基于主动学习的筛选中最具挑战性的方面[11]。
模拟证据表明,ASReview可以显著减少筛选工作量,但模型性能在不同数据集和配置之间有所不同。Ferdinands及其同事[12]发现,七种ASReview配置在六个系统评价数据集中的表现都优于随机筛选,其中朴素贝叶斯(NB)和词频-逆文档频率(TF-IDF)的组合表现最好。然而,ASReview的默认配置已经改变。在ASReview LAB v.2中,de Bruin及其同事[13]报告称,模型优化集中在两种表现最好的轻量级TF-IDF组合上,即TF-IDF与朴素贝叶斯(NB)和TF-IDF与支持向量机(SVM),在更新TF-IDF表示以包括单词和二元组之后。在他们的验证研究中,SVM + TF-IDF的表现优于NB + TF-IDF,并被选为新的默认ELAS-Ultra配置。最近的大规模模拟[10]没有发现普遍最优的模型,有14种不同的配置在至少一个数据集中实现了最低的损失。当计算效率很重要时,轻量级TF-IDF基模型仍然具有吸引力,而基于嵌入的配置对于难以找到的记录和模型切换工作流程似乎很有用。
停止规则尚未完全确立。SAFE提供了一个结合了多种保护措施的保守框架,例如至少筛选数据集的10%并在最后50条记录中没有找到相关记录,但这些阈值是可调整的而不是通用的[11],最近的模拟工作建议修改SAFE框架的实现[14]。其他模拟评估了基于百分比的规则。例如,Campos及其同事[15]发现,平均而言,检索95%的相关记录需要7%连续无关记录,而在教育数据集中,筛选20%加上5%连续无关记录可以带来有利的工作量减少。因此,停止阈值最好理解为特定于上下文的参数,而不是固定规则。
尽管这一领域的模拟研究数量不断增加,但文献仍然对健康技术证据综合中的实施决策提供的支持有限。特别是,关于不同模型配置之间的相对表现以及不同停止规则如何影响工作量减少与遗漏符合条件的研究风险之间的权衡仍存在不确定性。本研究不仅简单地考察了主动学习在这一背景下的前景,还提供了在共同模拟框架下对这些实施选择的比较证据。为此,我们使用我们研究小组近年来进行的证据综合项目生成的一系列预标记证据综合数据集进行了模拟,以支持巴西公民电子健康记录e-SUS初级医疗保健的发展[16]。使用这些数据集,我们比较了ASReview模型配置在节省努力和筛选成本方面的表现,并检查了哪些停止规则在这种模拟设置中提供了更有利的召回率和努力之间的权衡。