编辑推荐:
摘要背景识别混杂变量对于进行可靠的观察性研究至关重要,然而传统的手动方法不仅耗时,而且具有主观性,给研究人员带来了困难。最近在检索增强生成(Retrieval-Augmented Generation, RAG)技术方面的进展为这一问题提供了解决方案,但大多数现有系统依赖于全文访
识别混杂变量对于进行可靠的观察性研究至关重要,然而传统的手动方法不仅耗时,而且具有主观性,给研究人员带来了困难。最近在检索增强生成(Retrieval-Augmented Generation, RAG)技术方面的进展为这一问题提供了解决方案,但大多数现有系统依赖于全文访问、云托管的API或手动策划的知识图谱,这引发了关于隐私、版权和计算成本的担忧,并使得本地部署变得困难。
本研究开发并评估了一种启发式工具,用于确定观察性研究中需要调整的潜在混杂变量。通过使用本地部署的、仅基于摘要的RAG架构,该工具能够从医学摘要的PICO(人群、干预措施、比较对象、结果)查询中生成一份可追踪的潜在混杂变量候选列表。
我们实现了一个三阶段的架构来识别潜在混杂变量。该流程部署在一个一体化的本地服务器上,并使用1000个由专家策划的、涵盖20个临床专业的PICO查询进行了评估。性能从四个维度进行了评估:内部一致性、输出量、效率以及临床接受度,并与仅基于图谱的SemMedDB基线进行了比较。
在多次运行中,该流程显示出较高的内部一致性(潜在混杂变量列表一致性为94.6%±8.7%;PMID集合一致性为79.4%±23.5%)。它建议每个查询平均识别出6个潜在混杂变量(四分位数范围为8个),并检索到平均33个独特的PMID(四分位数范围为7个)。平均处理时间为44.50秒(四分位数范围为31.72秒)。专家评审的总体临床接受率为87.12%。
作为一种探索性方法,本地部署的、仅基于摘要的RAG工作流程可以生成具有临床可解释性和可追踪性的潜在混杂变量建议,以支持早期观察性研究的设计,特别是在存在隐私限制或无法完全访问全文和云资源的情境下。
不适用。
识别混杂变量对于进行可靠的观察性研究至关重要,然而传统的手动方法不仅耗时,而且具有主观性,给研究人员带来了困难。最近在检索增强生成(Retrieval-Augmented Generation, RAG)技术方面的进展为这一问题提供了解决方案,但大多数现有系统依赖于全文访问、云托管的API或手动策划的知识图谱,这引发了关于隐私、版权和计算成本的担忧,并使得本地部署变得困难。
本研究开发并评估了一种启发式工具,用于确定观察性研究中需要调整的潜在混杂变量。通过使用本地部署的、仅基于摘要的RAG架构,该工具能够从医学摘要的PICO(人群、干预措施、比较对象、结果)查询中生成一份可追踪的潜在混杂变量候选列表。
我们实现了一个三阶段的架构来识别潜在混杂变量。该流程部署在一个一体化的本地服务器上,并使用1000个由专家策划的、涵盖20个临床专业的PICO查询进行了评估。性能从四个维度进行了评估:内部一致性、输出量、效率以及临床接受度,并与仅基于图谱的SemMedDB基线进行了比较。
在多次运行中,该流程显示出较高的内部一致性(潜在混杂变量列表一致性为94.6%±8.7%;PMID集合一致性为79.4%±23.5%)。它建议每个查询平均识别出6个潜在混杂变量(四分位数范围为8个),并检索到平均33个独特的PMID(四分位数范围为7个)。平均处理时间为44.50秒(四分位数范围为31.72秒)。专家评审的总体临床接受率为87.12%。
作为一种探索性方法,本地部署的、仅基于摘要的RAG工作流程可以生成具有临床可解释性和可追踪性的潜在混杂变量建议,以支持早期观察性研究的设计,特别是在存在隐私限制或无法完全访问全文和云资源的情境下。
不适用。
生物通 版权所有