人工智能生成心力衰竭出院指导与常规参考患者教育材料的比较分析

时间:2026年5月22日
来源:Healthcare

编辑推荐:

摘要:心力衰竭(Heart Failure,HF)全球成人患病率为1%–3%,再入院率与医疗成本居高不下,优化出院流程以降低院后并发症已成为研究重点。本研究旨在比较人工智能(Artificial Intelligence,AI)生成的出院指导与常用患者教育资源

广告
   X   

摘要:心力衰竭(Heart Failure,HF)全球成人患病率为1%–3%,再入院率与医疗成本居高不下,优化出院流程以降低院后并发症已成为研究重点。本研究旨在比较人工智能(Artificial Intelligence,AI)生成的出院指导与常用患者教育资源在质量、可读性及健康素养要求方面的差异。研究人员采用盲法调查,由15名心血管疾病专科医师对WebMD、Lexicomp®及ChatGPT‑4o生成的心力衰竭出院指导进行评价;质量评估采用改良版DISCERN标准与全球质量量表(Global Quality Scale,GQS),可读性分析采用Flesch易读性评分(Flesch Reading Ease Score,FRES)、Flesch‑Kincaid阅读年级水平(Flesch‑Kincaid Grade Level,FKGL)及Gunning‑Fog指数(Gunning‑Fog Index,GFI)。统计方法用于识别最符合患者需求的出院材料及其阅读水平要求。结果显示,三类材料的质量指标无统计学差异,ChatGPT‑4o被评为“良好”,WebMD与Lexicomp®被评为“优秀”,且专家评审未发现AI生成文本存在临床错误。可读性分析显示,ChatGPT‑4o生成的指导需大学级阅读能力,显著高于WebMD与Lexicomp®的8–9年级水平;定性比较发现,WebMD与Lexicomp®多采用直接行为指令,而AI文本依赖抽象认知任务,导致更高的健康素养负担。研究表明,尽管所有来源的信息质量均较高,AI生成材料的可读性明显不足,提示未来应优化患者教育材料的可读性,并通过提示词工程策略降低抽象概念比例,以确保高质量AI工具能被低健康素养患者有效使用。
心力衰竭是全球范围内重要的公共卫生挑战,成人患病率约为1%–3%,五年死亡率高达45%–60%。随着人口老龄化及肥胖相关疾病增加,心衰的疾病负担持续加重,年均治疗费用约为每名患者三万美元。尽管住院诊疗不断进步,心衰患者出院后再入院率、发病率与死亡率仍居高不下,多数再入院可通过药物依从性及生活方式干预避免。然而,现有出院指导资源在可读性与健康素养匹配方面存在显著不足,尤其面对互联网上海量且良莠不齐的健康信息,患者难以获得适宜理解的指导。近年来,患者在医疗决策中的角色日益增强,约72%的美国成年人曾在线查询诊断与治疗相关信息,这进一步凸显了提供高质量且易理解的出院指导的重要性。与此同时,人工智能(AI)在医疗领域的应用迅速增长,其中ChatGPT‑4o因免费、易用及语言合成能力强,成为公众获取医疗信息的重要渠道。基于此,研究人员开展了针对心衰出院指导质量的比较研究,以评估AI生成内容与权威教育资源的差距,并为临床推荐与患者沟通提供依据。
本研究的主要技术方法包括:在获得机构审查委员会批准后,研究人员从三大来源获取心衰出院指导文本——面向公众的WebMD、循证医学数据库Lexicomp®以及AI平台ChatGPT‑4o,三者均以相同查询短语生成内容。随后,将去标识化的文本随机编入问卷,由15名心血管病专科医师进行盲法评估,最终10人完成评价。质量评价采用改良版DISCERN标准(总分7–35分)与全球质量量表(GQS,1–5分);可读性分析采用Flesch易读性评分(FRES)、Flesch‑Kincaid阅读年级水平(FKGL)及Gunning‑Fog指数(GFI),并使用方差分析(ANOVA)检验组间差异,显著性阈值设定为p < 0.05。
研究结果显示:
3.1 质量:三类材料在改良DISCERN与GQS评分上无显著差异(p值分别为0.25与0.67),ChatGPT‑4o总体评为“良好”,WebMD与Lexicomp®评为“优秀”。组内评分一致性中等(ICC = 0.59)。
3.2 可读性:FRES评分中,ChatGPT‑4o为43.8(难度较高),Lexicomp®为62.3,WebMD为68.8;FKGL显示ChatGPT‑4o需大学级阅读能力(9.8级),WebMD与Lexicomp®分别为6.4与6.8级(8–9年级水平);GFI评分中,ChatGPT‑4o为13.3(大学级),其余两者分别为9.4与9.6(高中一年级水平)。
3.3 定性评估:AI文本未出现虚构事实或临床错误,但语言风格偏向抽象认知任务,如“识别症状”“了解何时就医”,而WebMD与Lexicomp®则使用具体行为指令,如“立即前往急诊室”,这种差异是造成AI材料健康素养负担升高的主要原因。
讨论部分指出,虽然ChatGPT‑4o在信息质量上已接近权威资源,但其基线输出的语言复杂度远超患者平均阅读能力,这与训练数据来源于专业医学文献有关。相比静态资源,AI的优势在于动态适应性,未来应通过提示词工程优化,使其生成更具行为导向性的低阅读难度文本,并可根据患者健康素养水平自动调整。研究还强调,AI工具的普及需考虑数字社会决定因素,避免因设备与网络条件差异加剧健康不平等。此外,所有三类材料均未达美国国立卫生研究院与美国医学会建议的4–6年级阅读水平,提示心衰教育材料整体可读性亟待提升。
结论部分表明,心衰出院指导的质量虽普遍较高,但AI生成材料的可读性明显不足,可能阻碍患者理解与依从。未来的研究应聚焦于降低AI生成文本的复杂度,并评估其在真实临床环境中对患者理解与再入院率的影响,以推动高质量且易获取的智能健康教育工具的发展。

生物通微信公众号
微信
新浪微博


生物通 版权所有