摘要
引言
系统性红斑狼疮(SLE)由于其多样的临床表现和其他自身免疫性疾病的重叠,给临床医生带来了重大的诊断挑战。目前,大型语言模型(LLMs)被认为有潜力帮助临床医生加快决策过程。本研究旨在评估四种LLM在区分SLE与临床表现相似的疾病方面的性能。
方法
本研究在一家风湿病中心对100名患者进行了回顾性诊断准确性研究:其中50名患者被确诊为SLE,另外50名患者的疾病包括类风湿性关节炎、系统性硬化症、轴向脊柱关节炎、银屑病关节炎、肌炎、ANCA相关性血管炎、混合性结缔组织病、未分化结缔组织病和纤维肌痛。评估了四种LLM:Deepseek、ChatGPT 4.0、Claude Sonnet 4和Gemini。研究采用了2019年欧洲风湿病协会/美国风湿病学会(EULAR/ACR)的分类标准。计算了诊断准确性、阳性预测值(PPV)、阴性预测值(NPV)和接收者操作特征曲线下面积(AUC)。所有分析均使用IBM SPSS Statistics 25版本进行。
结果
Gemini的表现最好,准确率为96%(95%置信区间:91.2–100.0%),敏感性为94%(95%置信区间:89.3–98.7%),特异性为98%(95%置信区间:93.1–100.0%),AUC为0.960。ChatGPT 4.0和Claude Sonnet 4的表现相当。Deepseek的表现最差。
结论
Gemini在帮助临床医生区分SLE与类似疾病方面显示出显著潜力。然而,在这些工具能够可靠地应用于临床实践之前,还需要在真实世界的临床环境中进行前瞻性验证。
利益冲突
作者声明没有利益冲突。
数据可用性声明
支持本研究结果的数据可向通讯作者索取。由于隐私或伦理限制,这些数据不能公开。




