人工智能在学术写作中检测人工智能:为什么大多数人工智能检测工具的检测结果都是错误的

时间:2026年1月25日
来源:Next Research

编辑推荐:

本文基于流行病学理论框架,分析AI检测器在识别人类与生成式AI(如ChatGPT)文本的准确性。研究发现,现有检测器因低灵敏度与低预检患病率导致高假发现率(FDR),误判率显著高于正确识别率,尤其在对抗性生成模型面前。该研究揭示AI检测器在学术诚信应用中的局限性,呼吁改进检测方法并加强AI使用披露。

广告
   X   

帕纳约蒂斯·齐加里斯(Panagiotis Tsigaris)| 海梅·A·特谢拉·达席尔瓦(Jaime A. Teixeira da Silva)
805 TRU路,汤普森河大学(Thompson Rivers University)经济系,加拿大不列颠哥伦比亚省坎卢普斯市(Kamloops),V2C 0C8

摘要

人工智能(AI)拓展了改进人类创作文本和思想的可能性,成为辅助文本语言表达和可读性的强大工具。一些大型语言模型(LLMs),如ChatGPT,功能极其强大,以至于即使是专家也难以区分这些文本是人工生成的还是AI生成的。为了帮助那些未公开使用AI的作者,已经开发出了AI检测工具,例如GPTZero。本文探讨了AI检测工具在检测AI生成文本方面的敏感性、特异性、普及率以及误报率(false discovery rate, FDR),从而评估其区分AI文本和人类文本的能力。这一理论框架借鉴了流行病学的视角,将AI检测工具比作能够识别疾病状况的医疗设备。与寻求疾病检测以保护自身的患者不同,使用AI编辑或创作文本但未公开的作者则试图逃避检测。研究结果表明,由于检测工具面临的普及率较低(尤其是在多个竞争性假设存在的情况下),以及人类对文本的修改和AI检测工具与AI生成器之间的“军备竞赛”,导致误报率非常高。

引言

OpenAI的ChatGPT是一种基于人工智能(AI)的大型语言模型(LLM),也称为生成式AI(GAI),能够生成连贯性极高、类似人类语言的文本[29]。早期版本(GPT-4)生成的文本如此逼真,以至于经验丰富的科学家也难以区分其中70%是人类创作的还是ChatGPT生成的[19];人类与ChatGPT创作的故事几乎无法区分[24]。随着GPT-5.1的发布,OpenAI在自适应推理和对话质量方面取得了进一步突破,使这些模型能够处理更复杂、更具上下文的问题[46]。AI检测工具GPTZero1通过识别可预测的词汇、句子结构以及“语气、节奏和复杂性”[56,58]来检测ChatGPT生成的文本。
本文研究了AI检测工具在检测基于AI的LLM生成的文本时的理论准确性。如果检测工具不够准确,可能会导致严重且代价高昂的错误:它可能将人类创作的文本误认为是AI生成的,反之亦然。尽管这类AI是由人类开发的,但仍需对其进行评估,就像医学中用于检测癌症等疾病的筛查工具一样。在表1中,我们运用流行病学原理对一个假设的AI检测工具进行了分析,以评估其检测AI生成文本的能力。在这里,AI检测工具相当于一种筛查工具,而文本则类似于患者。AI检测工具具有敏感性和特异性。同样重要的是普及率(PR),即在一定时间内检测到未公开使用的AI工具的频率,这有助于确定AI检测工具的误报率(FDR)(见表1)。
出于对人类的信任,原假设(Ho)认为文本是人类创作的,除非有确凿证据表明并非如此。备择假设(Ha)认为文本是由LLM(如ChatGPT)生成的。Teixeira da Silva和Tsigaris[63]之前曾使用这种推理方法来研究制定出版黑名单的标准[3]。因此,存在两个假设:HoHa(见表2)。一个旨在推翻原假设的AI检测工具需要超出合理怀疑范围的证据才能断定文本是AI生成的。超出合理怀疑范围的证据可以降低第一类错误(即错误地将人类创作的文本归因于AI生成)的发生概率,但同时也会增加第二类错误(即错误地将AI生成的文本归因于人类创作)的风险,从而可能让使用AI的作者逃避检测。AI检测工具的开发者需要在这两种错误之间做出权衡。表2展示了在HoHa两种情况下的所有可能结果。
OpenAI在2023年1月31日表示,“其最新工具9%的情况下将人类创作的文本错误地标记为AI生成,而只有26%的AI生成文本被正确识别”[45]。2023年7月20日,OpenAI宣布由于准确率过低,该工具已不再可用。2025年12月对该网站的验证显示OpenAI并未恢复该工具的开发。
尽管如此,根据OpenAI提供的初始数据,该AI检测工具在91%的情况下正确判断出人类创作了文本(即真正的阴性结果)。然而,9%的误报率(FPR)意味着大约有10%的作者会被误判为使用了AI来撰写文本,而实际上他们并未使用AI。另一方面,该检测工具的阳性检测率仅为26%,即只有26%的情况下正确识别出AI生成的文本。因此,该检测工具的阴性漏检率高达74%,无法识别出AI生成的文本。这意味着使用者可以在不公开使用AI的情况下逃避检测。不过,如果AI检测工具能够根据人类文本与AI生成文本之间的语言差异提高敏感性[25],未来不诚实的行为可能会更容易被发现。目前,OpenAI的AI检测工具具有较低的敏感性和较高的特异性,尽管前者是其弱点,但研究表明,较低的检测工具面对的普及率(PR)会导致较差的检测能力[4]。正如我们后续所展示的,这种低敏感性会机械性地降低AI使用的实际普及率。
尽管近期有多篇综述文章全面探讨了AI生成文本检测的现状,包括方法论分类、系统架构以及对学术诚信的广泛影响[Perkins, 2023; [17,51,71],但这些综述并未提供根据实际观察到的敏感性、特异性和使用普及率调整后的诊断准确性估计或误报率(FDR)。本文通过整合关于检测工具性能的最新实证数据,并应用流行病学中广泛使用的诊断准确性公式,得出了在各种学术和出版情境下的实际误报率(FDR)。这种基于普及率调整的概率视角弥补了现有综述的不足,指出了在何种实证条件下AI检测结果可能不可靠或具有误导性。

AI检测工具准确性的理论框架

基于诊断准确性和误报分析的现有研究[9,10,32],以及将该框架应用于学术诚信研究[62,63]的基础上,我们采用了一种诊断-误报率(diagnostic-FDR)方法来评估AI生成文本检测工具的可靠性。这一框架也被应用于非生物医学领域;例如,Ioannidis等人(2017)利用相同的基于概率的逻辑来量化实证经济学中的误报概率,展示了其跨学科的应用价值

基于实证的示例场景:普及率、敏感性和特异性如何影响AI检测准确性

通过两个示例场景说明了AI检测工具的误报率(FDR)如何受普及率(PR)、敏感性和特异性影响,这些数据基于1000篇论文的预期统计结果。所有数值结果均基于二项式假设得出的预期值,用于概念性说明而非精确预测。
这些场景中使用的敏感性和特异性值来自多项关于AI检测工具的实证研究([22,39]; Sadasivan等人,2025a)。

讨论

我们的框架有两个实际应用场景:首先,如果教授无法检测到学生未公开使用的AI,可能会导致评分不公[28]。另一个同样令人担忧的问题是学术出版领域,即使期刊有相关政策,使用低敏感性但高特异性AI检测工具的期刊也无法有效检测到使用AI生成的论文。这一问题因近期关于AI使用普及率的数据而变得更加严重

结论与局限性

本文指出了当前基于诊断指标的AI生成文本检测工具存在的重大局限性。我们发现,在许多合理的实证参数下,这些检测工具的误报率(FDR)较高,导致它们不可靠,可能对维护学术诚信造成损害,例如引发无端指控[70]。我们的理论框架还揭示了检测工具在对抗性环境中的脆弱性。

作者贡献

两位作者在概念设计、写作和编辑方面贡献均等,并对论文内容负责。

关于AI工具使用的透明度声明

本手稿的初稿是在没有AI辅助的情况下完成的。在后续阶段,第一作者仅使用ChatGPT(OpenAI的GPT-4.5和GPT-5.2)、Consensus AI和Google Scholar进行针对性文献搜索、信息收集、文章审阅与整理、图1的初始Python代码编写以及表格的初步制作。所有由AI工具提供的信息均由第一作者进行了核对和验证。

资金情况

作者及本研究未获得任何资金支持。

数据可用性声明

本研究未使用任何数据。图1所使用的Python代码可应合理要求提供。

未引用参考文献

[15,21,31,33,36,42,43,48,52,64]

CRediT作者贡献声明

帕纳约蒂斯·齐加里斯(Panagiotis Tsigaris):负责写作——审阅与编辑、撰写初稿、数据可视化、验证、方法论设计、调查、形式分析、概念构建。海梅·A·特谢拉·达席尔瓦(Jaime A. Teixeira da Silva):负责写作——审阅与编辑、撰写初稿、数据可视化、验证、调查、概念构建。

利益冲突声明

作者声明不存在利益冲突。

生物通微信公众号
微信
新浪微博


生物通 版权所有