人工智能在学术写作中检测人工智能：为什么大多数人工智能检测工具的检测结果都是错误的

时间：2026年1月25日

来源：Next Research

编辑推荐：

本文基于流行病学理论框架，分析AI检测器在识别人类与生成式AI（如ChatGPT）文本的准确性。研究发现，现有检测器因低灵敏度与低预检患病率导致高假发现率（FDR），误判率显著高于正确识别率，尤其在对抗性生成模型面前。该研究揭示AI检测器在学术诚信应用中的局限性，呼吁改进检测方法并加强AI使用披露。

帕纳约蒂斯·齐加里斯（Panagiotis Tsigaris）| 海梅·A·特谢拉·达席尔瓦（Jaime A. Teixeira da Silva）

805 TRU路，汤普森河大学（Thompson Rivers University）经济系，加拿大不列颠哥伦比亚省坎卢普斯市（Kamloops），V2C 0C8

摘要

人工智能（AI）拓展了改进人类创作文本和思想的可能性，成为辅助文本语言表达和可读性的强大工具。一些大型语言模型（LLMs），如ChatGPT，功能极其强大，以至于即使是专家也难以区分这些文本是人工生成的还是AI生成的。为了帮助那些未公开使用AI的作者，已经开发出了AI检测工具，例如GPTZero。本文探讨了AI检测工具在检测AI生成文本方面的敏感性、特异性、普及率以及误报率（false discovery rate, FDR），从而评估其区分AI文本和人类文本的能力。这一理论框架借鉴了流行病学的视角，将AI检测工具比作能够识别疾病状况的医疗设备。与寻求疾病检测以保护自身的患者不同，使用AI编辑或创作文本但未公开的作者则试图逃避检测。研究结果表明，由于检测工具面临的普及率较低（尤其是在多个竞争性假设存在的情况下），以及人类对文本的修改和AI检测工具与AI生成器之间的“军备竞赛”，导致误报率非常高。

引言

OpenAI的ChatGPT是一种基于人工智能（AI）的大型语言模型（LLM），也称为生成式AI（GAI），能够生成连贯性极高、类似人类语言的文本[29]。早期版本（GPT-4）生成的文本如此逼真，以至于经验丰富的科学家也难以区分其中70%是人类创作的还是ChatGPT生成的[19]；人类与ChatGPT创作的故事几乎无法区分[24]。随着GPT-5.1的发布，OpenAI在自适应推理和对话质量方面取得了进一步突破，使这些模型能够处理更复杂、更具上下文的问题[46]。AI检测工具GPTZero¹通过识别可预测的词汇、句子结构以及“语气、节奏和复杂性”[56,58]来检测ChatGPT生成的文本。

本文研究了AI检测工具在检测基于AI的LLM生成的文本时的理论准确性。如果检测工具不够准确，可能会导致严重且代价高昂的错误：它可能将人类创作的文本误认为是AI生成的，反之亦然。尽管这类AI是由人类开发的，但仍需对其进行评估，就像医学中用于检测癌症等疾病的筛查工具一样。在表1中，我们运用流行病学原理对一个假设的AI检测工具进行了分析，以评估其检测AI生成文本的能力。在这里，AI检测工具相当于一种筛查工具，而文本则类似于患者。AI检测工具具有敏感性和特异性。同样重要的是普及率（PR），即在一定时间内检测到未公开使用的AI工具的频率，这有助于确定AI检测工具的误报率（FDR）（见表1）。

出于对人类的信任，原假设（Ho）认为文本是人类创作的，除非有确凿证据表明并非如此。备择假设（Ha）认为文本是由LLM（如ChatGPT）生成的。Teixeira da Silva和Tsigaris[63]之前曾使用这种推理方法来研究制定出版黑名单的标准[3]。因此，存在两个假设：Ho和Ha（见表2）。一个旨在推翻原假设的AI检测工具需要超出合理怀疑范围的证据才能断定文本是AI生成的。超出合理怀疑范围的证据可以降低第一类错误（即错误地将人类创作的文本归因于AI生成）的发生概率，但同时也会增加第二类错误（即错误地将AI生成的文本归因于人类创作）的风险，从而可能让使用AI的作者逃避检测。AI检测工具的开发者需要在这两种错误之间做出权衡。表2展示了在Ho和Ha两种情况下的所有可能结果。

OpenAI在2023年1月31日表示，“其最新工具9%的情况下将人类创作的文本错误地标记为AI生成，而只有26%的AI生成文本被正确识别”[45]。2023年7月20日，OpenAI宣布由于准确率过低，该工具已不再可用。2025年12月对该网站的验证显示OpenAI并未恢复该工具的开发。

尽管如此，根据OpenAI提供的初始数据，该AI检测工具在91%的情况下正确判断出人类创作了文本（即真正的阴性结果）。然而，9%的误报率（FPR）意味着大约有10%的作者会被误判为使用了AI来撰写文本，而实际上他们并未使用AI。另一方面，该检测工具的阳性检测率仅为26%，即只有26%的情况下正确识别出AI生成的文本。因此，该检测工具的阴性漏检率高达74%，无法识别出AI生成的文本。这意味着使用者可以在不公开使用AI的情况下逃避检测。不过，如果AI检测工具能够根据人类文本与AI生成文本之间的语言差异提高敏感性[25]，未来不诚实的行为可能会更容易被发现。目前，OpenAI的AI检测工具具有较低的敏感性和较高的特异性，尽管前者是其弱点，但研究表明，较低的检测工具面对的普及率（PR）会导致较差的检测能力[4]。正如我们后续所展示的，这种低敏感性会机械性地降低AI使用的实际普及率。

尽管近期有多篇综述文章全面探讨了AI生成文本检测的现状，包括方法论分类、系统架构以及对学术诚信的广泛影响[Perkins, 2023; [17,51,71]，但这些综述并未提供根据实际观察到的敏感性、特异性和使用普及率调整后的诊断准确性估计或误报率（FDR）。本文通过整合关于检测工具性能的最新实证数据，并应用流行病学中广泛使用的诊断准确性公式，得出了在各种学术和出版情境下的实际误报率（FDR）。这种基于普及率调整的概率视角弥补了现有综述的不足，指出了在何种实证条件下AI检测结果可能不可靠或具有误导性。

AI检测工具准确性的理论框架

基于诊断准确性和误报分析的现有研究[9,10,32]，以及将该框架应用于学术诚信研究[62,63]的基础上，我们采用了一种诊断-误报率（diagnostic-FDR）方法来评估AI生成文本检测工具的可靠性。这一框架也被应用于非生物医学领域；例如，Ioannidis等人（2017）利用相同的基于概率的逻辑来量化实证经济学中的误报概率，展示了其跨学科的应用价值

基于实证的示例场景：普及率、敏感性和特异性如何影响AI检测准确性

通过两个示例场景说明了AI检测工具的误报率（FDR）如何受普及率（PR）、敏感性和特异性影响，这些数据基于1000篇论文的预期统计结果。所有数值结果均基于二项式假设得出的预期值，用于概念性说明而非精确预测。

这些场景中使用的敏感性和特异性值来自多项关于AI检测工具的实证研究（[22,39]; Sadasivan等人，2025a）。

讨论

我们的框架有两个实际应用场景：首先，如果教授无法检测到学生未公开使用的AI，可能会导致评分不公[28]。另一个同样令人担忧的问题是学术出版领域，即使期刊有相关政策，使用低敏感性但高特异性AI检测工具的期刊也无法有效检测到使用AI生成的论文。这一问题因近期关于AI使用普及率的数据而变得更加严重

结论与局限性

本文指出了当前基于诊断指标的AI生成文本检测工具存在的重大局限性。我们发现，在许多合理的实证参数下，这些检测工具的误报率（FDR）较高，导致它们不可靠，可能对维护学术诚信造成损害，例如引发无端指控[70]。我们的理论框架还揭示了检测工具在对抗性环境中的脆弱性。

作者贡献

两位作者在概念设计、写作和编辑方面贡献均等，并对论文内容负责。

关于AI工具使用的透明度声明

本手稿的初稿是在没有AI辅助的情况下完成的。在后续阶段，第一作者仅使用ChatGPT（OpenAI的GPT-4.5和GPT-5.2）、Consensus AI和Google Scholar进行针对性文献搜索、信息收集、文章审阅与整理、图1的初始Python代码编写以及表格的初步制作。所有由AI工具提供的信息均由第一作者进行了核对和验证。

资金情况

作者及本研究未获得任何资金支持。

数据可用性声明

本研究未使用任何数据。图1所使用的Python代码可应合理要求提供。

未引用参考文献

[15,21,31,33,36,42,43,48,52,64]

CRediT作者贡献声明

帕纳约蒂斯·齐加里斯（Panagiotis Tsigaris）：负责写作——审阅与编辑、撰写初稿、数据可视化、验证、方法论设计、调查、形式分析、概念构建。海梅·A·特谢拉·达席尔瓦（Jaime A. Teixeira da Silva）：负责写作——审阅与编辑、撰写初稿、数据可视化、验证、调查、概念构建。

利益冲突声明

作者声明不存在利益冲突。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部