基于检索增强和生成增强的大型语言模型，用于从结构化的冠状动脉CTA报告中实现全面的CAD-RADS 2.0分类

时间：2026年2月25日

来源：Die Radiologie

编辑推荐：

RAG增强型大语言模型显著提升结构化CCTA报告解析准确性和临床管理建议生成效果，优于闭源模型。基于CAD-RADS 2.0标准，320份报告显示ChatGPT-5-RAG在斑块负荷、高危斑块检测等核心指标准确率达0.958-0.988，显著优于其他模型（p<0.001）。研究证实RAG技术能有效支持放射科自动化工作流。

摘要

研究目的

评估大型语言模型（LLMs），包括基于检索增强生成（RAG）的方法，在根据冠状动脉疾病报告和数据系统（CAD-RADS 2.0）从结构化的冠状动脉计算机断层扫描血管造影（CCTA）报告中提取组件和管理建议方面的性能。

材料与方法

共分析了320份结构完整的CCTA报告，使用了LLM。其中包含了开源的标准模型ChatGPT-5、基于RAG的模型NotebookLM，以及经过RAG改进的ChatGPT-5模型（ChatGPT-5-RAG）。每个模型均根据CAD-RADS 2.0指南提取了CAD-RADS分类、斑块负荷、高风险斑块（HRP）的存在情况、其他修饰因素、总评分和管理建议。我们将LLM的输出结果与由两位心血管放射科专家确定的参考标准进行了比较。

结果

ChatGPT-5-RAG在CAD-RADS分类（0.959，95%置信区间：0.932–0.976）、斑块负荷（0.912，95%置信区间：0.876–0.939）、高风险斑块检测（0.988，95%置信区间：0.968–0.995）、其他修饰因素（0.950，95%置信区间：0.920–0.969）以及总评分（0.828，95%置信区间：0.783–0.866）方面的准确率最高。而开源的ChatGPT-5在所有指标上的表现最为薄弱。三种模型之间存在显著的统计学差异（p < 0.001）。管理建议通过三点李克特量表进行定性评估；尽管模型间的一致性较低，但ChatGPT-5-RAG和NotebookLM的表现几乎完美（中位数均为3分）。