在学术出版的快速列车时代,科学家们正以前所未有的速度生产和提交论文,尤其在生物技术等前沿领域。这为守护科学质量的“守门人”——同行评审系统,带来了巨大的压力。审稿人难寻,审稿周期漫长,已成为制约知识传播的瓶颈。与此同时,以GPT系列、Qwen、Gemini等为代表的大语言模型(Large Language Models, LLMs)在文本生成和理解方面展现出了惊人能力,它们正被研究者用来起草、润色论文。一个自然浮现的问题是:这些强大的AI模型,能否胜任科学论文“裁判”的角色?它们能像人类专家一样,精准地指出研究的不足、评估其创新价值吗?更重要的是,在生物技术这类涉及复杂领域知识、多模态数据和实验室可行性的学科中,AI审稿的表现究竟如何?为了回答这些问题,一支来自华盛顿大学圣路易斯分校(Washington University in St. Louis)的研究团队,对LLMs在生物技术领域的同行评审表现进行了一次系统性的“体检”。
为了评估LLMs作为审稿人的可靠性,研究人员构建了一个时间跨度为2019年至2025年的语料库,包含了763篇预印本论文(其中398篇附有公开的同行评审报告)以及12份提交给美国国家科学基金会(NSF)的基金申请提案。他们选取了当时先进的GPT-5、Qwen-Plus和Gemini 2.5 Pro三种模型,让它们根据指定的提示词为这些论文和提案生成详细的审稿意见。随后,研究团队将这些AI生成的评论与真实的人类评审意见进行多维度对比,涉及评论类别分布、最终建议倾向、评分差异、语言特征等多个方面。
本研究主要采用了以下方法:1. 数据集构建 :从bioRxiv、arXiv等平台收集生物技术及相关领域的预印本,并筛选出附带开放评审报告及最终发表版本的论文,构成核心分析数据集。2. 评论文本生成与分析 :将PDF论文转换为文本后,输入给不同的LLMs,要求其生成包含优缺点和最终建议的审稿意见。接着,将每份评审(包括人类和AI的)拆分成独立的评论单元,并使用GPT-5作为分类器,将每个单元归入预先定义的10个互斥类别(如“贡献与新颖性”、“实验设计与方法”、“分析与统计”等)之一,以便进行定量统计和定性分析。3. 基金提案评审对比 :将12份NSF提案的项目描述部分输入LLMs,要求其根据NSF的评审标准(包括智力价值和更广泛影响)进行评估并打分,然后将AI的评分和评语与人类专家评审组的意见进行对比。4. 语言与内容分析 :通过词云等方法,对比AI与人类评审在用词和关注点上的差异。
人类与AI在论文评审生成上的对比
研究团队将AI与人类的审稿意见进行了细致的分类比较。他们发现,所有AI审稿人(GPT-5, Qwen-Plus, Gemini 2.5 Pro)都能提供实质性、结构良好的评论,并且都特别强调实验设计与方法 以及分析与统计 。然而,AI在整体上比人类审稿人更为宽容。具体而言,AI审稿人评论“定位与引用”(即要求作者将工作置于更广泛的文献背景中或要求增加引用)的可能性比人类低34%。在评估研究的“贡献与新颖性”时,GPT-5倾向于指出更多缺点,并可能认为论文中的某些主张过于夸大;而Gemini通常评价更高,这与近期的一些观察一致。AI审稿人更关注稿件内容本身,几乎从不提及个人感受或意见,并且给出的与评审无关的其他评论比人类少91%。在最终建议上,AI的评审意见明显偏向于“小修”和“大修”,几乎从不给出明确的“接受”或“拒绝”决定;而人类的建议则更为分散,且包含约15%的“未知”建议,这可能是因为人类审稿人需要在评论之外的表格中单独提交建议。研究还通过向提案文本中注入科学上听起来合理但实际错误的陈述来测试AI发现弱点的能力。虽然AI审稿人能够标记出许多被注入的问题(其中Gemini表现出最高的敏感性),但这可能部分反映了其对记忆模式的识别,对于新颖、超出其训练分布的细微缺陷,其检测能力并不稳定。
人类与AI在基金提案评审生成上的对比
在基金提案评审中,AI与人类评审的差异更为显著。在所有12份提案中,人类评审的平均分为2.46分(介于“一般=1”和“优秀=4”之间),而三种LLM的评分 consistently 更高,集中在“良好”到“优秀”区间:GPT-5约为3.17–3.33,Qwen-Plus约为3.42–3.54,Gemini 2.5 Pro约为3.46–3.83。即使在人类评审最为苛刻的提案上(例如人类平均分1.50),所有模型仍给出≥3.0的分数。在结构和内容上,AI评审通常以总结开头,接着是分点列出的优缺点,并且总是强调优点多于缺点,会一致性地涵盖所有评审部分。而人类评审则使用段落式格式,根据提案质量调整侧重点,并经常在认为不必要时跳过弱点或某些部分。从语言特征来看,AI通常使用更复杂、更外交辞令的语言;而人类的语言则更简单、更具批判性。词云分析显示,AI和人类评审共享一个小的核心词汇(如“影响”、“数据”、“工程”),但侧重点不同:人类的词汇围绕实验特定、领域相关的名词(如“代谢的”、“菌株”、“机器”、“评估的”、“生长”)和简单词汇(如“好”、“请”);而LLMs则偏爱元评估词汇。这种差异在较弱的提案上更为明显。当人类对一份提交给出差评时,他们的语言会转向局限性和证据支持,而AI评审则保持一种乐观的、计划性的语调,强调创造性和变革潜力。
AI检测的不可靠性
研究还测试了AI内容检测器(如GPTZero)在识别AI生成审稿文本方面的可靠性。结果表明,当AI生成的文本经过简单的改写、意译或使用“人性化”提示词处理后,检测器的置信度会迅速下降。这表明,依赖文本风格水印来“标记”AI类似文本的价值有限,不如确保所有科学主张都是基于事实和可验证的。
本研究得出结论,大语言模型可以作为出版物和基金评审中有用的助手。编辑和资助机构应利用它们来支持而非取代人类审稿人。结合AI的速度与人类的细致审查,有望在学术出版中实现更公平、更快速的决策。特别需要注意的是,敏感稿件在发送到公共API或网站时必须进行强加密。研究团队建议开发安全或本地托管的大语言模型代理,作为临时审稿人,为编辑和资助机构提供快速、客观、无利益冲突的反馈。同时,应通过新法规缓解隐私和版权风险,并对所有提交的稿件实施开放同行评审,以增强评审过程的透明度和问责制。
尽管大语言模型已经深度集成到数据管理和实验室操作中,但其在精确撰写或批判性评估学术论文方面的能力仍然有限。然而,随着大语言模型的快速发展和向通用人工智能(AGI)的持续迈进,可能会重塑我们当前的观察和观点。我们预期未来的AGI可能在稿件准备和实验设计方面达到甚至超越博士后研究员或教授的水平。这项研究为开发用于资助机构和生物技术期刊的专用LLM同行评审代理提供了有价值的数据集,并指出了未来自动同行评审的发展方向:AI可以最小化人类偏袒带来的偏见,但人类必须在领域特定的可行性检查和伦理关切方面保持主导地位。AI与人类评审意见存在较大分歧的稿件,应作为高风险修订的信号进行分流。更先进的推理技术、基于图像的深度学习以及多智能体系统的出现,都有望提升AI的审稿能力。总而言之,这些步骤推动我们走向一种保留人类在最关键之处(新颖性、透明度和科学真理)的判断力的AI增强型评审。
打赏