大型语言模型在引用推荐中是否存在偏见?以能源研究主题为例的案例研究

时间:2026年5月17日
来源:ACS Energy Letters

编辑推荐:

大型语言模型(LLMs)和专门的科学AI平台日益增长的影响力已经改变了研究人员获取研究项目所需信息的方式。(1,2) 历史上,科学家们依赖Web of Science、Scopus、PubMed、SciFinder等数据库,手动从搜索结果中挑选相关引用。如今,LLMs能够轻松浏览

广告
   X   

大型语言模型(LLMs)和专门的科学AI平台日益增长的影响力已经改变了研究人员获取研究项目所需信息的方式。(1,2) 历史上,科学家们依赖Web of Science、Scopus、PubMed、SciFinder等数据库,手动从搜索结果中挑选相关引用。如今,LLMs能够轻松浏览文献并生成综合摘要,这使它们在追踪任何科学领域的最新进展方面极具吸引力。然而,早期LLMs生成的文本常常包含虚假引用。虽然 newer版本的LLMs和专门平台积极尝试过滤这些伪造内容以提供精选的引用集,但一个关键问题仍然存在:LLMs究竟是如何选择要引用的真实来源的?由于不同的LLMs可能从不同的训练数据集和搜索索引中获取科学信息,它们的来源选择可能会有很大差异。如果某个模型过度偏好某些期刊或档案库,其生成的引用列表将变得高度偏斜。为了评估不同平台之间的这种固有引用偏差,我们让五个主要的AI模型(免费版本)——ChatGPT(GPT 5.3)、Claude(Sonnet 4.6)、DeepSeek(DeepSeek-V3.2)、Gemini(Gemini 3 Flash)和Meta AI(Llama 4)在两天内分别针对四个不同的科学主题生成了20条引用(图1)。我们向这些LLMs提出了相同的问题:“提供关于(主题领域)的新进展和挑战的10条经过同行评审的期刊引用,格式为[作者]。[标题]。[期刊],[年份],[卷],[页码]。DOI:[DOI]。”

图1. 五种不同LLMs为四个选定的能源相关主题生成的引用(图片由Google NotebookLM生成)。
高分辨率图片
下载MS PowerPoint幻灯片

我们选择了四个与能源相关的主题领域:1. 钙钛矿太阳能电池;2. 锂离子电池;3. 电化学二氧化碳还原;4. 量子点LED。这四个主题下五个不同LLMs生成的两组结果包含在支持信息中(表S1)。

**引用偏差**
LLMs在推荐期刊引用时是否表现出对特定出版商的偏好?(3,4) 为了研究能源研究领域的这一方面,我们按出版商对推荐的期刊进行了分组,并分析了它们的引用分布(图2)。两组结果揭示了不同LLMs在为相同主题选择引用时的显著差异,突显了输出的整体不一致性。只有大约20%的引用在所有LLMs中都是共有的(表S2)。Claude特别强调了Nature/Springer系列的引用。同样,ChatGPT也优先考虑Nature/Springer Nature期刊,但值得注意的是,它没有引用任何Science系列的论文。相反,Gemini和Meta在出版商选择上表现出更大的多样性,推荐了大量来自MDPI期刊的引用。需要注意的是,这里的分析基于仅限于四个能源主题的小数据集。结果可能会根据提示类型、主题类别和数据集大小而有所不同。

图2. 两次独立运行中五个LLMs推荐的引用分布。根据出版商将引用的期刊分组。实色柱显示了所有引用中重叠的验证引用比例。每列顶部的差异代表无效引用的比例。第一次和第二次运行分别于2026年3月17日和19日进行。
高分辨率图片
下载MS PowerPoint幻灯片

我们使用CrossRef验证了引用输出的准确性,然后手动检查了标记的论文(见流程图S1)。虽然大多数推荐的引用都是有效的,但LLMs也生成了一小部分无效引用,这些引用要么在文献中不存在,要么在引用的一个或多个字段中包含错误。我们在图2的列中用较浅的颜色标记了缺乏完整验证的引用,并在表S1中用彩色阴影行表示。任何无法完全验证的引用都被归类为无效引用(表S3)。这些无效引用的比例在不同LLMs之间从2.5%到22.5%不等,并且在第一次和第二次运行之间也存在差异。值得注意的是,Claude在两次迭代中仅产生了2.5%的无效引用。此外,LLMs经常无法区分有效文章和被撤回的文章。(5) 随着LLMs的不断改进,未来生成无效引用的情况可能会减少。此外,不同期刊之间的引用分布(图2)表明LLMs是有选择地访问文献的,这表明它们的推荐存在固有偏差。有关每个LLM推荐的前五名期刊的详细分解,请参阅表S4。

**开放获取偏差**
Plan S开放获取(OA)计划的初衷是为读者提供免费访问科学文献的途径。然而,这种可访问性也使得大型语言模型(LLMs)能够自由访问OA出版物以响应用户查询。因此,各种LLMs推荐的OA论文比例普遍超过了50%,其中ChatGPT超过了60%(图3)。自21世纪初以来,OA文章相对于付费文章的比例从20%稳步上升到了50%。(6) 如果这一趋势持续下去,OA文章可能会获得比付费文章更多的引用,从而可能扭曲期刊的影响因子。

图3. 两次独立运行中LLMs推荐的开放获取(OA)引用比例。第一次和第二次运行分别于2026年3月17日和19日进行。
高分辨率图片
下载MS PowerPoint幻灯片

我们还分析了推荐参考文献的发表年份,发现大多数引用集中在2023年至2025年之间,只有少数发表于2020年之前(图4)。近期开放获取(OA)文章的广泛可用性可能会使LLMs倾向于推荐较新的文献。研究人员在评估AI生成的引用时必须考虑到这种时间上的偏斜。如果LLMs无法轻松访问或识别早期几十年的重要论文,这些基础性工作将明显不会出现在它们的推荐中。

图4. 所有五个LLM在第一次运行中推荐的年份分布(2026年3月17日)。第二次运行的分布见图S1。
高分辨率图片
下载MS PowerPoint幻灯片

由于LLMs基于静态训练数据集运行,它们的输出可能会因查询的表述方式而大相径庭。因此,验证LLMs推荐引用的价值和准确性的责任完全落在研究人员身上。目前,这些工具仅作为使用传统科学数据库进行严格文献回顾之前的初步步骤。使用LLMs的用户还应查询该领域的基础性或开创性论文。

为了最大化LLMs在文献搜索中的效用,我们建议遵循以下最佳实践:
- 制定精确的查询:确保用户对LLMs的提示在科学上是准确的,并且与主题相关。
- 验证所有引用:严格地将LLMs生成的引用与已发表的文献进行交叉比对,以识别并排除无效或“虚构”的参考文献。
- 作为起点:将AI生成的输出仅作为通过专门学术数据库进行深入研究的起点。
- 检查遗漏的开创性文献:主动搜索对该领域发展至关重要的较旧的基础性论文,这些论文可能被模型忽略了。
- 保持作者的声音:记住,作者对文献的独特分析和综合不应仅仅反映参考文献的汇编,还应突出真正的科学贡献。

我们要求读者在解读本观点中呈现的分析时要谨慎,因为它是基于有限的引用样本和特定主题的。虽然这不是一个全面的研究,但本观点旨在作为一个示例,指出LLMs在响应查询时生成引用的显著差异。随着LLMs在科学出版中的整合不断深入,科学界必须对模型的固有偏差保持警惕,不仅关注它们生成的内容,还包括它们推荐的引用。

生物通微信公众号
微信
新浪微博


生物通 版权所有