探秘 ChatGPT 在老年综合征领域的表现：信息精准度与可读性评估

时间：2025年4月22日

来源：European Geriatric Medicine

编辑推荐：

为探究 ChatGPT 在老年医学领域解答患者常见问题的能力及文本可读性，研究人员针对常见老年综合征的常见问题（FAQs），评估 ChatGPT 回复的准确性与可读性。结果显示其总体准确性较高，但在少肌症诊断和老年抑郁治疗方面欠佳，文本难读。该研究为合理使用 ChatGPT 提供参考。

ChatGPT 作为一种综合语言处理模型，为与患者进行支持性和专业性互动提供了机会。然而，其用于解答患者常见问题（FAQs）的情况，以及生成文本的可读性，在老年医学领域仍有待探索。研究人员确定了关于常见老年综合征的常见问题，并评估了 ChatGPT 提供回复的准确性和可读性。

研究方法上，两位在老年综合征方面知识渊博且经验丰富的老年科医生，独立审查了 ChatGPT 提供的 28 条回复。依据当前指南和方法，将 ChatGPT 生成回复的准确性，按 0（有害）至 4（优秀）的评级量表进行分类。通过弗莱施 - 金凯德易读性（Flesch–Kincaid Reading Ease，FKRE）测试和弗莱施 - 金凯德年级水平（Flesch–Kincaid Grade Level，FKGL）测试，评估 ChatGPT 生成文本的可读性。

研究结果表明，ChatGPT 生成回复的总体平均准确性得分达到 88%（3.52/4）。不过，针对老年人少肌症（sarcopenia）诊断和抑郁症治疗生成的回复，准确性得分最低，分别为 2.0 和 2.5。文本的平均 FKRE 得分为 25.2，平均 FKGL 得分为 14.5。

综上所述，除少肌症诊断和抑郁症治疗外，ChatGPT 在大多数常见老年综合征方面生成回复的准确性得分较高。此外，ChatGPT 生成的文本阅读难度很大，最适合大学毕业生理解。ChatGPT 或许能减少许多患者面临的不确定性，但在进行重要决策时，咨询专业领域专家仍是明智之举。