大型语言模型在利用2019年EULAR/ACR标准区分系统性红斑狼疮与类似疾病方面的表现：一项比较分析

引言

系统性红斑狼疮（SLE）由于其多样的临床表现和其他自身免疫性疾病的重叠，给临床医生带来了重大的诊断挑战。目前，大型语言模型（LLMs）被认为有潜力帮助临床医生加快决策过程。本研究旨在评估四种LLM在区分SLE与临床表现相似的疾病方面的性能。

方法

本研究在一家风湿病中心对100名患者进行了回顾性诊断准确性研究：其中50名患者被确诊为SLE，另外50名患者的疾病包括类风湿性关节炎、系统性硬化症、轴向脊柱关节炎、银屑病关节炎、肌炎、ANCA相关性血管炎、混合性结缔组织病、未分化结缔组织病和纤维肌痛。评估了四种LLM：Deepseek、ChatGPT 4.0、Claude Sonnet 4和Gemini。研究采用了2019年欧洲风湿病协会/美国风湿病学会（EULAR/ACR）的分类标准。计算了诊断准确性、阳性预测值（PPV）、阴性预测值（NPV）和接收者操作特征曲线下面积（AUC）。所有分析均使用IBM SPSS Statistics 25版本进行。

结果

Gemini的表现最好，准确率为96%（95%置信区间：91.2–100.0%），敏感性为94%（95%置信区间：89.3–98.7%），特异性为98%（95%置信区间：93.1–100.0%），AUC为0.960。ChatGPT 4.0和Claude Sonnet 4的表现相当。Deepseek的表现最差。

结论

Gemini在帮助临床医生区分SLE与类似疾病方面显示出显著潜力。然而，在这些工具能够可靠地应用于临床实践之前，还需要在真实世界的临床环境中进行前瞻性验证。

大型语言模型在利用2019年EULAR/ACR标准区分系统性红斑狼疮与类似疾病方面的表现：一项比较分析

摘要

引言

方法

结果

结论

利益冲突

数据可用性声明