基于检索增强和生成增强的大型语言模型,用于从结构化的冠状动脉CTA报告中实现全面的CAD-RADS 2.0分类

时间:2026年2月25日
来源:Die Radiologie

编辑推荐:

RAG增强型大语言模型显著提升结构化CCTA报告解析准确性和临床管理建议生成效果,优于闭源模型。基于CAD-RADS 2.0标准,320份报告显示ChatGPT-5-RAG在斑块负荷、高危斑块检测等核心指标准确率达0.958-0.988,显著优于其他模型(p<0.001)。研究证实RAG技术能有效支持放射科自动化工作流。

广告
   X   

摘要

研究目的

评估大型语言模型(LLMs),包括基于检索增强生成(RAG)的方法,在根据冠状动脉疾病报告和数据系统(CAD-RADS 2.0)从结构化的冠状动脉计算机断层扫描血管造影(CCTA)报告中提取组件和管理建议方面的性能。

材料与方法

共分析了320份结构完整的CCTA报告,使用了LLM。其中包含了开源的标准模型ChatGPT-5、基于RAG的模型NotebookLM,以及经过RAG改进的ChatGPT-5模型(ChatGPT-5-RAG)。每个模型均根据CAD-RADS 2.0指南提取了CAD-RADS分类、斑块负荷、高风险斑块(HRP)的存在情况、其他修饰因素、总评分和管理建议。我们将LLM的输出结果与由两位心血管放射科专家确定的参考标准进行了比较。

结果

ChatGPT-5-RAG在CAD-RADS分类(0.959,95%置信区间:0.932–0.976)、斑块负荷(0.912,95%置信区间:0.876–0.939)、高风险斑块检测(0.988,95%置信区间:0.968–0.995)、其他修饰因素(0.950,95%置信区间:0.920–0.969)以及总评分(0.828,95%置信区间:0.783–0.866)方面的准确率最高。而开源的ChatGPT-5在所有指标上的表现最为薄弱。三种模型之间存在显著的统计学差异(p < 0.001)。管理建议通过三点李克特量表进行定性评估;尽管模型间的一致性较低,但ChatGPT-5-RAG和NotebookLM的表现几乎完美(中位数均为3分)。

结论

本研究表明,基于RAG的LLM显著提高了提取CAD-RADS 2.0组件和生成临床管理建议的准确性和可靠性。这些发现突显了基于RAG的LLM作为自动化和标准化CCTA报告工作中的创新、可解释工具的潜力。

研究目的

评估大型语言模型(LLMs),包括基于检索增强生成(RAG)的方法,在根据冠状动脉疾病报告和数据系统(CAD-RADS 2.0)从结构化的冠状动脉计算机断层扫描血管造影(CCTA)报告中提取组件和管理建议方面的性能。

材料与方法

共分析了320份结构完整的CCTA报告,使用了LLM。其中包含了开源的标准模型ChatGPT-5、基于RAG的模型NotebookLM,以及经过RAG改进的ChatGPT-5模型(ChatGPT-5-RAG)。每个模型均根据CAD-RADS 2.0指南提取了CAD-RADS分类、斑块负荷、高风险斑块(HRP)的存在情况、其他修饰因素、总评分和管理建议。我们将LLM的输出结果与由两位心血管放射科专家确定的参考标准进行了比较。

结果

ChatGPT-5-RAG在CAD-RADS分类(0.959,95%置信区间:0.932–0.976)、斑块负荷(0.912,95%置信区间:0.876–0.939)、高风险斑块检测(0.988,95%置信区间:0.968–0.995)、其他修饰因素(0.950,95%置信区间:0.920–0.969)以及总评分(0.828,95%置信区间:0.783–0.866)方面的准确率最高。而开源的ChatGPT-5在所有指标上的表现最为薄弱。三种模型之间存在显著的统计学差异(p < 0.001)。管理建议通过三点李克特量表进行定性评估;尽管模型间的一致性较低,但ChatGPT-5-RAG和NotebookLM的表现几乎完美(中位数均为3分)。

结论

本研究表明,基于RAG的LLM显著提高了提取CAD-RADS 2.0组件和生成临床管理建议的准确性和可靠性。这些发现突显了基于RAG的LLM作为自动化和标准化CCTA报告工作中的创新、可解释工具的潜力。

生物通微信公众号
微信
新浪微博


生物通 版权所有