探秘 ChatGPT 在老年综合征领域的表现:信息精准度与可读性评估

时间:2025年4月22日
来源:European Geriatric Medicine

编辑推荐:

为探究 ChatGPT 在老年医学领域解答患者常见问题的能力及文本可读性,研究人员针对常见老年综合征的常见问题(FAQs),评估 ChatGPT 回复的准确性与可读性。结果显示其总体准确性较高,但在少肌症诊断和老年抑郁治疗方面欠佳,文本难读。该研究为合理使用 ChatGPT 提供参考。

广告
   X   

ChatGPT 作为一种综合语言处理模型,为与患者进行支持性和专业性互动提供了机会。然而,其用于解答患者常见问题(FAQs)的情况,以及生成文本的可读性,在老年医学领域仍有待探索。研究人员确定了关于常见老年综合征的常见问题,并评估了 ChatGPT 提供回复的准确性和可读性。
研究方法上,两位在老年综合征方面知识渊博且经验丰富的老年科医生,独立审查了 ChatGPT 提供的 28 条回复。依据当前指南和方法,将 ChatGPT 生成回复的准确性,按 0(有害)至 4(优秀)的评级量表进行分类。通过弗莱施 - 金凯德易读性(Flesch–Kincaid Reading Ease,FKRE)测试和弗莱施 - 金凯德年级水平(Flesch–Kincaid Grade Level,FKGL)测试,评估 ChatGPT 生成文本的可读性。

研究结果表明,ChatGPT 生成回复的总体平均准确性得分达到 88%(3.52/4)。不过,针对老年人少肌症(sarcopenia)诊断和抑郁症治疗生成的回复,准确性得分最低,分别为 2.0 和 2.5。文本的平均 FKRE 得分为 25.2,平均 FKGL 得分为 14.5。

综上所述,除少肌症诊断和抑郁症治疗外,ChatGPT 在大多数常见老年综合征方面生成回复的准确性得分较高。此外,ChatGPT 生成的文本阅读难度很大,最适合大学毕业生理解。ChatGPT 或许能减少许多患者面临的不确定性,但在进行重要决策时,咨询专业领域专家仍是明智之举。

生物通微信公众号
微信
新浪微博


生物通 版权所有