人工智能系统在食物中毒问题应答中的可读性与信息质量评估:一项揭示关键矛盾的前瞻性研究

时间:2026年3月29日
来源:JOURNAL OF FOOD SCIENCE

编辑推荐:

本研究评估了AI系统(Google、ChatGPT、DeepSeek、Mistral)在回答食物中毒常见问题时,所提供信息的可读性与质量。研究发现,Google提供的文本最易读但信息质量最低,而大型语言模型(LLMs)提供的信息质量更高,但阅读难度远超推荐的六年级水平。这揭示了当前AI健康信息传播中的一个关键矛盾:可及性与准确性之间的权衡,凸显了开发权威、易懂的公共卫生建议的迫切性。

广告
   X   

在数字化浪潮席卷全球的今天,公众获取健康信息的方式发生了深刻变革。无论是身体不适时上网搜索症状,还是寻求饮食安全建议,越来越多的人习惯于向人工智能(AI)系统,包括搜索引擎和大语言模型(LLMs),寻求即时答案。食物中毒作为一种全球性的常见公共卫生问题,每年导致数亿人患病,其信息的准确性、可靠性和清晰易懂性至关重要。然而,当人们向AI提出“食物中毒了该怎么办?”这类迫切问题时,得到的答案是否真的对他们有用?是易于理解但可能信息不全甚至存在误导,还是专业准确但晦涩难懂,超出普通人的理解水平?这个看似简单的疑问背后,潜藏着数字健康沟通领域一个尚未被系统评估的关键问题。
为了回答这一问题,研究人员在《JOURNAL OF FOOD SCIENCE》上发表了一项开创性研究,首次对主流AI系统在食物中毒相关问题上的表现进行了基准测试。他们选取了谷歌(Google)搜索引擎以及ChatGPT、DeepSeek和Mistral这三个具有区域代表性的大语言模型作为评估对象。研究核心在于同时评估这些系统回答的可读性和信息质量,旨在揭示不同AI工具在提供关键健康信息时的优缺点及其内在矛盾。
研究方法概述
研究人员首先利用Google Trends确定了15个关于“食物中毒”的最常见搜索问题,以确保研究反映真实的公众信息需求。他们模拟典型用户行为,向四个AI平台输入这些问题,并收集其生成的文本回答。评估采用了两大体系:一是通过弗莱士-金凯德年级水平(FKGL)、迷雾指数(SMOG)和冈宁雾指数(GFI)这三个经过验证的指数来量化文本的可读性(即理解文本所需的美国学校年级水平);二是邀请两位独立的专家盲审员,使用经过验证的DISCERN工具和全球质量量表(GQS)来评估信息的质量、可靠性和实用性。所有统计分析使用R软件完成。
研究结果
3.1 多重比较
统计分析显示,不同AI方法之间以及不同可读性指数之间的可读性分数存在显著差异。事后两两比较揭示了一个清晰的性能层次:谷歌(Google)生成的文本在所有三个可读性指数上均显著优于其他AI系统,特别是在GFI和SMOG指数上显著优于ChatGPT,并在所有指数上均显著优于Mistral。相反,ChatGPT、DeepSeek和Mistral这三个专用大语言模型形成了一个独立的集群,它们之间的可读性没有统计学上的显著差异,尽管Mistral的阅读需求有最高的趋势。
3.2 项目级分析
在不同问题的可读性得分上存在明显波动。例如,在回答“食物中毒了该怎么办?”(Q7)和“如何判断是否感染了沙门氏菌?”(Q12)等问题时,Google的可读性得分(尤其是在GFI和SMOG指数上)出现显著下降,而其他模型则保持了相对更稳定的分数。总体而言,无论使用哪种可读性指数,Google对Q7的回答是最易读的,而对Q12的回答是最难读的。
3.3 评分者间信度与质量评估
使用GQS的评估揭示了信息质量的显著对比。DeepSeek和ChatGPT提供了最高质量的回答,DeepSeek在70%的评分中获得了最高分5分,ChatGPT为63.33%。相反,Google的回答质量始终最低,仅3.33%的评分达到最高分(5分),而有30%的评分落入最低质量类别(1分或2分)。两位评审专家一致对Google关于“食物中毒和肠胃感冒有什么区别?”(Q9)和“食物中毒引起的腹泻是什么颜色?”(Q10)这两个问题的回答给出了最低分(1分)。
使用DISCERN工具的项目级分析进一步证实了这一模式。专家对DeepSeek和ChatGPT的评分一致性几乎完美,对Mistral和Google的评分也具有高度一致性。然而,这种高度一致性也凸显了Google输出信息的低质量:专家给出了极低的总分(30分和34分),表明其信息在质量和可靠性上严重不足。相比之下,大语言模型,特别是DeepSeek(74分和75分)和ChatGPT(62分和61分),不仅评分者间信度高,而且一致被评为提供了高质量的信息。
结论与讨论
本研究揭示了一个数字健康沟通中的关键矛盾:在提供食物中毒相关信息时,搜索引擎(以Google为代表)和专用大语言模型(LLMs)之间存在显著的“可读性-质量权衡”。搜索引擎优化的文本最易读(平均FKGL为9.05),但其信息质量最低(DISCERN评分30-34,GQS高分率仅3%)。相反,LLMs(如DeepSeek、ChatGPT)提供了更高质量、更全面的信息(如DeepSeek的DISCERN评分为70-75),但其文本的阅读难度显著更高(FKGL在10.01至11.32之间),超出了公共卫生推荐的六年级阅读水平。
这一矛盾的根源在于两者不同的信息处理方式。搜索引擎检索并排序现有的网页,内容深度和可靠性参差不齐,导致质量不高但可能因内容简短而显得易读。LLMs则通过综合所学知识生成流畅、结构一致的答案,因此在信息的范围、一致性和清晰度上表现更佳,但语言往往更复杂。
这一发现对公共卫生实践和政策具有重要意义。它迫使消费者在“易懂但可能误导”的信息和“准确但难以获取”的指导之间做出艰难选择。然而,研究也指出了解决之道:LLMs自身就蕴含了破解这一难题的钥匙。已有证据表明,通过策略性提示(例如,要求LLM以六年级阅读水平生成回答),可以显著降低其输出文本的阅读难度,而不必牺牲信息的准确性。因此,开发者和公共卫生机构必须优先考虑对此类工具的“有意设计”,利用优化提示策略,生成既易于理解又准确可靠的健康信息。这不仅是一项技术改进,更是实现健康公平、确保不同文化水平人群都能获得关键健康指导的必要步骤。
尽管本研究存在一定局限性(如问题样本有限、仅评估英文内容、使用免费版本AI等),但它为评估AI生成的消费者健康信息质量提供了重要的基础性评估,并呼吁未来开发能够提供权威、易懂的食品安全建议的AI系统。

生物通微信公众号
微信
新浪微博


生物通 版权所有