大型语言模型结合图像处理技术，用于自动化测量Cobb角

时间：2026年2月25日

来源：European Spine Journal

编辑推荐：

脊柱侧弯Cobb角测量评估四款大语言模型（LLMs）诊断准确性，发现ChatGPT错误率高达58.6°，Perplexity和Grok误差分别为18.8°/24.2°，均未达临床标准（≤10%），且均无法识别S型侧弯。研究强调需专门开发AI工具。

摘要

背景

脊柱侧弯的程度通过Cobb角来评估，该角度用于量化病情的严重程度，由临床医生在X光片上进行测量。随着人工智能（AI）在临床工作流程中应用的日益增多，人们对于具备图像处理能力的大型语言模型（LLMs）是否能够简化并改进脊柱畸形分类存在疑问。本研究旨在评估4种领先的大型语言模型（ChatGPT、Gemini、Perplexity和Grok）从X光片中计算Cobb角的诊断能力。

方法

对122名脊柱侧弯患者进行了横断面分析。由经过专业培训的放射科医生使用Horos软件独立计算Cobb角，作为参考标准。所有122张X光片随后被上传到这4个AI模型中，以识别脊柱侧弯的类型、生成Cobb角叠加图并计算Cobb角。通过预先定义的问题（采用李克特量表进行评分）来评估模型的可用性。统计测试包括均值差异、配对t检验和组内相关系数。

结果

Gemini没有计算出任何Cobb角。ChatGPT在90张X光片中未能计算出Cobb角；即使计算出了Cobb角，也存在较大的误差（平均绝对误差为58.6° ± 45.9°）。Perplexity和Grok分别对所有胸腰椎病例进行了估计，平均差异分别为18.8°（±13.3°）和24.2°（±18.3°）。没有一个AI模型能够正确识别S形脊柱侧弯病例。所有AI模型的计算结果与临床可接受的差异（≤10%）相比都存在较大差距。