今日动态
  • 生物通首页
  • 今日动态
  • 新技术专栏
  • 人才市场

生物通首页 > 今日动态 > 正文

大型语言模型生成的教育内容在信息质量、可读性和指南一致性方面的比较评估:针对血液透析并发症的生成式人工智能驱动聊天机器人的横断面研究

时间:2026年5月27日
来源:BMC Nephrology

编辑推荐:

摘要背景大型语言模型正逐渐成为血液透析患者获取疾病管理信息的关键资源。然而,这些模型生成的与血液透析相关的教育性文本的信息可靠性、可读性以及与指南的一致性尚未得到充分评估。方法本研究从最初包含200个候选问题的集合中筛选出42个与透析相关的问题,这些问题来源于谷歌趋势(Googl

广告
   X   

摘要

背景

大型语言模型正逐渐成为血液透析患者获取疾病管理信息的关键资源。然而,这些模型生成的与血液透析相关的教育性文本的信息可靠性、可读性以及与指南的一致性尚未得到充分评估。

方法

本研究从最初包含200个候选问题的集合中筛选出42个与透析相关的问题,这些问题来源于谷歌趋势(Google Trends)、相关临床指南和在线论坛。采用标准化的单轮、零样本提示策略(使用默认的网页界面设置),将这些问题分别输入到五个模型中(ChatGPT-4o、DeepSeek-V2.5、Gemini 2.5 Pro、Perplexity Pro和Copilot)。两名经过培训的评估者独立使用DISCERN、EQIP、JAMA和GQS量表对模型输出进行了盲评,如有分歧则由第三位资深肾病专家进行裁决。可读性通过FKGL、FRES、GFI、CLI和SMOG等指标进行量化。此外,以KDIGO等国际权威指南为基准,对模型生成的内容在指南一致性及潜在的文本层面安全问题进行了审查,并采用定性方法描述了模型输出中出现的“幻觉”现象。

结果

在所有四个信息质量指标上,五个大型语言模型之间存在显著差异(DISCERN和EQIP的P值<0.001;GQS和JAMA的P值=0.002)。基于检索增强(RAG)的模型,尤其是Perplexity和Copilot,表现出相对较高的信息可靠性。没有一个模型的输出达到了六年级学生的可读性标准,而且较高的指南一致性通常伴随着较高的语言复杂性。基于检索增强的模型在内容与参考指南的匹配程度上也表现更好,而非检索增强模型则更常省略指南推荐的要素或提供不够具体的回答。定性评估发现了一些模型生成的“医学幻觉”案例,包括不合适的自我管理建议、可能不恰当的饮食建议以及被误认为是自我护理的超出范围临床指导,这表明如果未经专业审核直接使用这些内容,可能存在文本层面的安全风险。

结论

基于检索增强的模型在生成与血液透析相关的教育性文本时,表现出相对更好的证据支持、信息可靠性和指南一致性。然而,所有被评估的大型语言模型生成的输出在可读性方面都存在问题,偶尔还会出现潜在的不安全或超出范围的建议。这些发现并不能确定大型语言模型在实际临床应用中的安全性或有效性,但表明在将这些模型用于患者教育材料之前,应谨慎对待未经监督的使用,并需要进行专家审核和语言简化处理。

背景

大型语言模型正逐渐成为血液透析患者获取疾病管理信息的关键资源。然而,这些模型生成的与血液透析相关的教育性文本的信息可靠性、可读性以及与指南的一致性尚未得到充分评估。

方法

本研究从最初包含200个候选问题的集合中筛选出42个与透析相关的问题,这些问题来源于谷歌趋势(Google Trends)、相关临床指南和在线论坛。采用标准化的单轮、零样本提示策略(使用默认的网页界面设置),将这些问题分别输入到五个模型中(ChatGPT-4o、DeepSeek-V2.5、Gemini 2.5 Pro、Perplexity Pro和Copilot)。两名经过培训的评估者独立使用DISCERN、EQIP、JAMA和GQS量表对模型输出进行了盲评,如有分歧则由第三位资深肾病专家进行裁决。可读性通过FKGL、FRES、GFI、CLI和SMOG等指标进行量化。此外,以KDIGO等国际权威指南为基准,对模型生成的内容在指南一致性及潜在的文本层面安全问题进行了审查,并采用定性方法描述了模型输出中出现的“幻觉”现象。

结果

在所有四个信息质量指标上,五个大型语言模型之间存在显著差异(DISCERN和EQIP的P值<0.001;GQS和JAMA的P值=0.002)。基于检索增强(RAG)的模型,尤其是Perplexity和Copilot,表现出相对较高的信息可靠性。没有一个模型的输出达到了六年级学生的可读性标准,而且较高的指南一致性通常伴随着较高的语言复杂性。基于检索增强的模型在内容与参考指南的匹配程度上也表现更好,而非检索增强模型则更常省略指南推荐的要素或提供不够具体的回答。定性评估发现了一些模型生成的“医学幻觉”案例,包括不合适的自我管理建议、可能不恰当的饮食建议以及被误认为是自我护理的超出范围临床指导,这表明如果未经专业审核直接使用这些内容,可能存在文本层面的安全风险。

结论

基于检索增强的模型在生成与血液透析相关的教育性文本时,表现出相对更好的证据支持、信息可靠性和指南一致性。然而,所有被评估的大型语言模型生成的输出在可读性方面都存在问题,偶尔还会出现潜在的不安全或超出范围的建议。这些发现并不能确定大型语言模型在实际临床应用中的安全性或有效性,但表明在将这些模型用于患者教育材料之前,应谨慎对待未经监督的使用,并需要进行专家审核和语言简化处理。

First slide
引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>
First slide
揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>
First slide
对同一细胞中的转录组和表观基因组进行同时分析(使用细胞核分离试剂盒简化样本制备工作流程)>>
First slide
「大小鼠繁育与健康管理」指导海报,点击即可免费领取电子版或实体海报>>
Previous Next
热点排行
  • 1复发性COPA突变驱动肠道肿瘤中不依赖R-spondin的Wnt激活
  • 2多巴胺受体激动剂普拉克索(pramipexole)治疗快感缺失性抑郁(anhedonic depression)的疗效及靶点结合验证(target engagement):一项随机安慰剂对照试验
  • 3通用大语言模型在临床医学基准测试中优于专用临床人工智能(AI)工具
  • 4人疫苗应答受平行细胞因子通路调控
  • 5基于mRNA的结核病疫苗BNT164a1和BNT164b1在啮齿动物模型中具有免疫原性、良好耐受性及保护效力
  • 6脂质体多柔比星联合白蛋白结合型紫杉醇±同步放化疗用于头颈部腺样囊性癌:单臂Ⅱ期研究
  • 7安罗替尼联合新辅助化疗治疗激素受体阳性/HER2阴性乳腺癌(ACNTBC):一项前瞻性、单臂、单中心Ⅱ期临床研究伴真实世界验证
  • 8Cell:小胶质细胞中的突变可能参与了阿尔茨海默病的发生
  • 9DNA高甲基化将早衰症综合征与年龄相关病理联系起来的研究
  • 10基于k-mer的全基因组关联分析(k-mer-based GWAS/KMERIA)方法赋能多倍体作物基因挖掘
生物通微信公众号
生物通新浪微博
在线客服
微信
新浪微博
我要投稿

返回顶部


生物通 版权所有

订阅Biohot解锁原文链接索取