人工智能生成的有关肩关节不稳定性的患者信息仍不够理想：DeepSeek在内容完整性方面优于ChatGPT，而ChatGPT的文本更具可读性

时间：2026年2月18日

来源：KNEE SURGERY, SPORTS TRAUMATOLOGY, ARTHROSCOPY

编辑推荐：

本研究比较了ChatGPT和DeepSeek在肩关节不稳患者教育信息中的表现。通过评估内容质量（JAMA、DISCERN、Likert量表）和可读性（Flesch-Kincaid），发现DeepSeek在DISCERN评分和完整性上显著优于ChatGPT，但ChatGPT可读性更好。结论两者各有优势，适用于患者教育。

摘要

目的

本研究旨在评估和比较Chat Generative Pre-Trained Transformer（ChatGPT）和DeepSeek人工智能（AI）模型在提供肩部不稳定患者信息方面的表现。

方法

向这两种AI模型提出了16个与肩部不稳定相关的常见问题。使用《美国医学会杂志》（JAMA）、DISCERN评分标准以及4点李克特量表对模型的回答内容质量进行了评估。此外，还利用Flesch–Kincaid可读性评分（FRES）和Flesch–Kincaid年级水平（FKGL）对回答的可读性进行了分析。

结果

两种模型均未能达到JAMA的标准。在DISCERN评分中，DeepSeek的得分（52.81）显著高于ChatGPT（48.5）（p = 0.001）。虽然在4点李克特量表的准确性、清晰度和一致性评估中两者之间没有显著差异（p > 0.05），但DeepSeek在完整性评估中的得分显著高于ChatGPT（p = 0.001）。在可读性方面，ChatGPT的平均FKGL值为7.78，FRES评分为52.44；而DeepSeek的FKGL值为9.90，FRES评分为41.87。两种模型在可读性方面存在统计学上的显著差异（FKGL，p = 0.016；FRES，p = 0.015）。

结论

尽管在透明度和信息来源归属方面存在局限性，这两种AI模型仍能提供关于肩部不稳定患者的较为准确且具有临床意义的信息。结果显示，DeepSeek在DISCERN评分和4点李克特量表的完整性评估中得分显著更高，而在准确性、清晰度和一致性方面没有显著差异。ChatGPT的可读性表现更好。这些发现表明，AI模型有潜力成为提供肩部不稳定患者信息的工具，且每种模型各有优势。