临床研究中用于调整的自动化候选混杂因素识别方法：一种基于数据检索的增强生成技术

时间：2026年5月17日

来源：BioData Mining

编辑推荐：

摘要背景识别混杂变量对于进行可靠的观察性研究至关重要，然而传统的手动方法不仅耗时，而且具有主观性，给研究人员带来了困难。最近在检索增强生成（Retrieval-Augmented Generation, RAG）技术方面的进展为这一问题提供了解决方案，但大多数现有系统依赖于全文访

摘要

背景

识别混杂变量对于进行可靠的观察性研究至关重要，然而传统的手动方法不仅耗时，而且具有主观性，给研究人员带来了困难。最近在检索增强生成（Retrieval-Augmented Generation, RAG）技术方面的进展为这一问题提供了解决方案，但大多数现有系统依赖于全文访问、云托管的API或手动策划的知识图谱，这引发了关于隐私、版权和计算成本的担忧，并使得本地部署变得困难。

目的

本研究开发并评估了一种启发式工具，用于确定观察性研究中需要调整的潜在混杂变量。通过使用本地部署的、仅基于摘要的RAG架构，该工具能够从医学摘要的PICO（人群、干预措施、比较对象、结果）查询中生成一份可追踪的潜在混杂变量候选列表。

方法

我们实现了一个三阶段的架构来识别潜在混杂变量。该流程部署在一个一体化的本地服务器上，并使用1000个由专家策划的、涵盖20个临床专业的PICO查询进行了评估。性能从四个维度进行了评估：内部一致性、输出量、效率以及临床接受度，并与仅基于图谱的SemMedDB基线进行了比较。

结果

在多次运行中，该流程显示出较高的内部一致性（潜在混杂变量列表一致性为94.6%±8.7%；PMID集合一致性为79.4%±23.5%）。它建议每个查询平均识别出6个潜在混杂变量（四分位数范围为8个），并检索到平均33个独特的PMID（四分位数范围为7个）。平均处理时间为44.50秒（四分位数范围为31.72秒）。专家评审的总体临床接受率为87.12%。