大型语言模型生成的教育内容在信息质量、可读性和指南一致性方面的比较评估：针对血液透析并发症的生成式人工智能驱动聊天机器人的横断面研究

时间：2026年5月27日

来源：BMC Nephrology

编辑推荐：

摘要背景大型语言模型正逐渐成为血液透析患者获取疾病管理信息的关键资源。然而，这些模型生成的与血液透析相关的教育性文本的信息可靠性、可读性以及与指南的一致性尚未得到充分评估。方法本研究从最初包含200个候选问题的集合中筛选出42个与透析相关的问题，这些问题来源于谷歌趋势（Googl

摘要

背景

大型语言模型正逐渐成为血液透析患者获取疾病管理信息的关键资源。然而，这些模型生成的与血液透析相关的教育性文本的信息可靠性、可读性以及与指南的一致性尚未得到充分评估。

方法

本研究从最初包含200个候选问题的集合中筛选出42个与透析相关的问题，这些问题来源于谷歌趋势（Google Trends）、相关临床指南和在线论坛。采用标准化的单轮、零样本提示策略（使用默认的网页界面设置），将这些问题分别输入到五个模型中（ChatGPT-4o、DeepSeek-V2.5、Gemini 2.5 Pro、Perplexity Pro和Copilot）。两名经过培训的评估者独立使用DISCERN、EQIP、JAMA和GQS量表对模型输出进行了盲评，如有分歧则由第三位资深肾病专家进行裁决。可读性通过FKGL、FRES、GFI、CLI和SMOG等指标进行量化。此外，以KDIGO等国际权威指南为基准，对模型生成的内容在指南一致性及潜在的文本层面安全问题进行了审查，并采用定性方法描述了模型输出中出现的“幻觉”现象。

结果

在所有四个信息质量指标上，五个大型语言模型之间存在显著差异（DISCERN和EQIP的P值<0.001；GQS和JAMA的P值=0.002）。基于检索增强（RAG）的模型，尤其是Perplexity和Copilot，表现出相对较高的信息可靠性。没有一个模型的输出达到了六年级学生的可读性标准，而且较高的指南一致性通常伴随着较高的语言复杂性。基于检索增强的模型在内容与参考指南的匹配程度上也表现更好，而非检索增强模型则更常省略指南推荐的要素或提供不够具体的回答。定性评估发现了一些模型生成的“医学幻觉”案例，包括不合适的自我管理建议、可能不恰当的饮食建议以及被误认为是自我护理的超出范围临床指导，这表明如果未经专业审核直接使用这些内容，可能存在文本层面的安全风险。

结论

基于检索增强的模型在生成与血液透析相关的教育性文本时，表现出相对更好的证据支持、信息可靠性和指南一致性。然而，所有被评估的大型语言模型生成的输出在可读性方面都存在问题，偶尔还会出现潜在的不安全或超出范围的建议。这些发现并不能确定大型语言模型在实际临床应用中的安全性或有效性，但表明在将这些模型用于患者教育材料之前，应谨慎对待未经监督的使用，并需要进行专家审核和语言简化处理。