人工智能系统在食物中毒问题应答中的可读性与信息质量评估：一项揭示关键矛盾的前瞻性研究

时间：2026年3月29日

来源：JOURNAL OF FOOD SCIENCE

编辑推荐：

本研究评估了AI系统（Google、ChatGPT、DeepSeek、Mistral）在回答食物中毒常见问题时，所提供信息的可读性与质量。研究发现，Google提供的文本最易读但信息质量最低，而大型语言模型(LLMs)提供的信息质量更高，但阅读难度远超推荐的六年级水平。这揭示了当前AI健康信息传播中的一个关键矛盾：可及性与准确性之间的权衡，凸显了开发权威、易懂的公共卫生建议的迫切性。

在数字化浪潮席卷全球的今天，公众获取健康信息的方式发生了深刻变革。无论是身体不适时上网搜索症状，还是寻求饮食安全建议，越来越多的人习惯于向人工智能（AI）系统，包括搜索引擎和大语言模型（LLMs），寻求即时答案。食物中毒作为一种全球性的常见公共卫生问题，每年导致数亿人患病，其信息的准确性、可靠性和清晰易懂性至关重要。然而，当人们向AI提出“食物中毒了该怎么办？”这类迫切问题时，得到的答案是否真的对他们有用？是易于理解但可能信息不全甚至存在误导，还是专业准确但晦涩难懂，超出普通人的理解水平？这个看似简单的疑问背后，潜藏着数字健康沟通领域一个尚未被系统评估的关键问题。

为了回答这一问题，研究人员在《JOURNAL OF FOOD SCIENCE》上发表了一项开创性研究，首次对主流AI系统在食物中毒相关问题上的表现进行了基准测试。他们选取了谷歌（Google）搜索引擎以及ChatGPT、DeepSeek和Mistral这三个具有区域代表性的大语言模型作为评估对象。研究核心在于同时评估这些系统回答的可读性和信息质量，旨在揭示不同AI工具在提供关键健康信息时的优缺点及其内在矛盾。

研究方法概述

研究人员首先利用Google Trends确定了15个关于“食物中毒”的最常见搜索问题，以确保研究反映真实的公众信息需求。他们模拟典型用户行为，向四个AI平台输入这些问题，并收集其生成的文本回答。评估采用了两大体系：一是通过弗莱士-金凯德年级水平（FKGL）、迷雾指数（SMOG）和冈宁雾指数（GFI）这三个经过验证的指数来量化文本的可读性（即理解文本所需的美国学校年级水平）；二是邀请两位独立的专家盲审员，使用经过验证的DISCERN工具和全球质量量表（GQS）来评估信息的质量、可靠性和实用性。所有统计分析使用R软件完成。

研究结果

3.1 多重比较

统计分析显示，不同AI方法之间以及不同可读性指数之间的可读性分数存在显著差异。事后两两比较揭示了一个清晰的性能层次：谷歌（Google）生成的文本在所有三个可读性指数上均显著优于其他AI系统，特别是在GFI和SMOG指数上显著优于ChatGPT，并在所有指数上均显著优于Mistral。相反，ChatGPT、DeepSeek和Mistral这三个专用大语言模型形成了一个独立的集群，它们之间的可读性没有统计学上的显著差异，尽管Mistral的阅读需求有最高的趋势。

3.2 项目级分析

在不同问题的可读性得分上存在明显波动。例如，在回答“食物中毒了该怎么办？”（Q7）和“如何判断是否感染了沙门氏菌？”（Q12）等问题时，Google的可读性得分（尤其是在GFI和SMOG指数上）出现显著下降，而其他模型则保持了相对更稳定的分数。总体而言，无论使用哪种可读性指数，Google对Q7的回答是最易读的，而对Q12的回答是最难读的。

3.3 评分者间信度与质量评估

使用GQS的评估揭示了信息质量的显著对比。DeepSeek和ChatGPT提供了最高质量的回答，DeepSeek在70%的评分中获得了最高分5分，ChatGPT为63.33%。相反，Google的回答质量始终最低，仅3.33%的评分达到最高分（5分），而有30%的评分落入最低质量类别（1分或2分）。两位评审专家一致对Google关于“食物中毒和肠胃感冒有什么区别？”（Q9）和“食物中毒引起的腹泻是什么颜色？”（Q10）这两个问题的回答给出了最低分（1分）。

使用DISCERN工具的项目级分析进一步证实了这一模式。专家对DeepSeek和ChatGPT的评分一致性几乎完美，对Mistral和Google的评分也具有高度一致性。然而，这种高度一致性也凸显了Google输出信息的低质量：专家给出了极低的总分（30分和34分），表明其信息在质量和可靠性上严重不足。相比之下，大语言模型，特别是DeepSeek（74分和75分）和ChatGPT（62分和61分），不仅评分者间信度高，而且一致被评为提供了高质量的信息。

结论与讨论

本研究揭示了一个数字健康沟通中的关键矛盾：在提供食物中毒相关信息时，搜索引擎（以Google为代表）和专用大语言模型（LLMs）之间存在显著的“可读性-质量权衡”。搜索引擎优化的文本最易读（平均FKGL为9.05），但其信息质量最低（DISCERN评分30-34，GQS高分率仅3%）。相反，LLMs（如DeepSeek、ChatGPT）提供了更高质量、更全面的信息（如DeepSeek的DISCERN评分为70-75），但其文本的阅读难度显著更高（FKGL在10.01至11.32之间），超出了公共卫生推荐的六年级阅读水平。

这一矛盾的根源在于两者不同的信息处理方式。搜索引擎检索并排序现有的网页，内容深度和可靠性参差不齐，导致质量不高但可能因内容简短而显得易读。LLMs则通过综合所学知识生成流畅、结构一致的答案，因此在信息的范围、一致性和清晰度上表现更佳，但语言往往更复杂。

这一发现对公共卫生实践和政策具有重要意义。它迫使消费者在“易懂但可能误导”的信息和“准确但难以获取”的指导之间做出艰难选择。然而，研究也指出了解决之道：LLMs自身就蕴含了破解这一难题的钥匙。已有证据表明，通过策略性提示（例如，要求LLM以六年级阅读水平生成回答），可以显著降低其输出文本的阅读难度，而不必牺牲信息的准确性。因此，开发者和公共卫生机构必须优先考虑对此类工具的“有意设计”，利用优化提示策略，生成既易于理解又准确可靠的健康信息。这不仅是一项技术改进，更是实现健康公平、确保不同文化水平人群都能获得关键健康指导的必要步骤。

尽管本研究存在一定局限性（如问题样本有限、仅评估英文内容、使用免费版本AI等），但它为评估AI生成的消费者健康信息质量提供了重要的基础性评估，并呼吁未来开发能够提供权威、易懂的食品安全建议的AI系统。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部