ChatGPT 作为一种综合语言处理模型,为与患者进行支持性和专业性互动提供了机会。然而,其用于解答患者常见问题(FAQs)的情况,以及生成文本的可读性,在老年医学领域仍有待探索。研究人员确定了关于常见老年综合征的常见问题,并评估了 ChatGPT 提供回复的准确性和可读性。
研究方法上,两位在老年综合征方面知识渊博且经验丰富的老年科医生,独立审查了 ChatGPT 提供的 28 条回复。依据当前指南和方法,将 ChatGPT 生成回复的准确性,按 0(有害)至 4(优秀)的评级量表进行分类。通过弗莱施 - 金凯德易读性(Flesch–Kincaid Reading Ease,FKRE)测试和弗莱施 - 金凯德年级水平(Flesch–Kincaid Grade Level,FKGL)测试,评估 ChatGPT 生成文本的可读性。
研究结果表明,ChatGPT 生成回复的总体平均准确性得分达到 88%(3.52/4)。不过,针对老年人少肌症(sarcopenia)诊断和抑郁症治疗生成的回复,准确性得分最低,分别为 2.0 和 2.5。文本的平均 FKRE 得分为 25.2,平均 FKGL 得分为 14.5。
综上所述,除少肌症诊断和抑郁症治疗外,ChatGPT 在大多数常见老年综合征方面生成回复的准确性得分较高。此外,ChatGPT 生成的文本阅读难度很大,最适合大学毕业生理解。ChatGPT 或许能减少许多患者面临的不确定性,但在进行重要决策时,咨询专业领域专家仍是明智之举。