编辑推荐:
脊柱侧弯Cobb角测量评估四款大语言模型(LLMs)诊断准确性,发现ChatGPT错误率高达58.6°,Perplexity和Grok误差分别为18.8°/24.2°,均未达临床标准(≤10%),且均无法识别S型侧弯。研究强调需专门开发AI工具。
脊柱侧弯的程度通过Cobb角来评估,该角度用于量化病情的严重程度,由临床医生在X光片上进行测量。随着人工智能(AI)在临床工作流程中应用的日益增多,人们对于具备图像处理能力的大型语言模型(LLMs)是否能够简化并改进脊柱畸形分类存在疑问。本研究旨在评估4种领先的大型语言模型(ChatGPT、Gemini、Perplexity和Grok)从X光片中计算Cobb角的诊断能力。
对122名脊柱侧弯患者进行了横断面分析。由经过专业培训的放射科医生使用Horos软件独立计算Cobb角,作为参考标准。所有122张X光片随后被上传到这4个AI模型中,以识别脊柱侧弯的类型、生成Cobb角叠加图并计算Cobb角。通过预先定义的问题(采用李克特量表进行评分)来评估模型的可用性。统计测试包括均值差异、配对t检验和组内相关系数。
Gemini没有计算出任何Cobb角。ChatGPT在90张X光片中未能计算出Cobb角;即使计算出了Cobb角,也存在较大的误差(平均绝对误差为58.6° ± 45.9°)。Perplexity和Grok分别对所有胸腰椎病例进行了估计,平均差异分别为18.8°(±13.3°)和24.2°(±18.3°)。没有一个AI模型能够正确识别S形脊柱侧弯病例。所有AI模型的计算结果与临床可接受的差异(≤10%)相比都存在较大差距。
本研究得出结论,目前市面上可用的AI模型在Cobb角测量方面的准确性有限。在所评估的4个AI模型中,Perplexity和Grok的表现最好,但没有任何一个模型具备可接受的临床应用能力。这些发现强调了在将Cobb角测量功能临床应用之前,需要专门开发并严格验证一款针对脊柱畸形的AI工具的必要性。
脊柱侧弯的程度通过Cobb角来评估,该角度用于量化病情的严重程度,由临床医生在X光片上进行测量。随着人工智能(AI)在临床工作流程中应用的日益增多,人们对于具备图像处理能力的大型语言模型(LLMs)是否能够简化并改进脊柱畸形分类存在疑问。本研究旨在评估4种领先的大型语言模型(ChatGPT、Gemini、Perplexity和Grok)从X光片中计算Cobb角的诊断能力。
对122名脊柱侧弯患者进行了横断面分析。由经过专业培训的放射科医生使用Horos软件独立计算Cobb角,作为参考标准。所有122张X光片随后被上传到这4个AI模型中,以识别脊柱侧弯的类型、生成Cobb角叠加图并计算Cobb角。通过预先定义的问题(采用李克特量表进行评分)来评估模型的可用性。统计测试包括均值差异、配对t检验和组内相关系数。
Gemini没有计算出任何Cobb角。ChatGPT在90张X光片中未能计算出Cobb角;即使计算出了Cobb角,也存在较大的误差(平均绝对误差为58.6° ± 45.9°)。Perplexity和Grok分别对所有胸腰椎病例进行了估计,平均差异分别为18.8°(±13.3°)和24.2°(±18.3°)。没有一个AI模型能够正确识别S形脊柱侧弯病例。所有AI模型的计算结果与临床可接受的差异(≤10%)相比都存在较大差距。
本研究得出结论,目前市面上可用的AI模型在Cobb角测量方面的准确性有限。在所评估的4个AI模型中,Perplexity和Grok的表现最好,但没有任何一个模型具备可接受的临床应用能力。这些发现强调了在将Cobb角测量功能临床应用之前,需要专门开发并严格验证一款针对脊柱畸形的AI工具的必要性。
生物通 版权所有