OpenAI的ChatGPT是一种基于人工智能(AI)的大型语言模型(LLM),也称为生成式AI(GAI),能够生成连贯性极高、类似人类语言的文本[29]。早期版本(GPT-4)生成的文本如此逼真,以至于经验丰富的科学家也难以区分其中70%是人类创作的还是ChatGPT生成的[19];人类与ChatGPT创作的故事几乎无法区分[24]。随着GPT-5.1的发布,OpenAI在自适应推理和对话质量方面取得了进一步突破,使这些模型能够处理更复杂、更具上下文的问题[46]。AI检测工具GPTZero1通过识别可预测的词汇、句子结构以及“语气、节奏和复杂性”[56,58]来检测ChatGPT生成的文本。
本文研究了AI检测工具在检测基于AI的LLM生成的文本时的理论准确性。如果检测工具不够准确,可能会导致严重且代价高昂的错误:它可能将人类创作的文本误认为是AI生成的,反之亦然。尽管这类AI是由人类开发的,但仍需对其进行评估,就像医学中用于检测癌症等疾病的筛查工具一样。在表1中,我们运用流行病学原理对一个假设的AI检测工具进行了分析,以评估其检测AI生成文本的能力。在这里,AI检测工具相当于一种筛查工具,而文本则类似于患者。AI检测工具具有敏感性和特异性。同样重要的是普及率(PR),即在一定时间内检测到未公开使用的AI工具的频率,这有助于确定AI检测工具的误报率(FDR)(见表1)。
出于对人类的信任,原假设(Ho)认为文本是人类创作的,除非有确凿证据表明并非如此。备择假设(Ha)认为文本是由LLM(如ChatGPT)生成的。Teixeira da Silva和Tsigaris[63]之前曾使用这种推理方法来研究制定出版黑名单的标准[3]。因此,存在两个假设:Ho和Ha(见表2)。一个旨在推翻原假设的AI检测工具需要超出合理怀疑范围的证据才能断定文本是AI生成的。超出合理怀疑范围的证据可以降低第一类错误(即错误地将人类创作的文本归因于AI生成)的发生概率,但同时也会增加第二类错误(即错误地将AI生成的文本归因于人类创作)的风险,从而可能让使用AI的作者逃避检测。AI检测工具的开发者需要在这两种错误之间做出权衡。表2展示了在Ho和Ha两种情况下的所有可能结果。
OpenAI在2023年1月31日表示,“其最新工具9%的情况下将人类创作的文本错误地标记为AI生成,而只有26%的AI生成文本被正确识别”[45]。2023年7月20日,OpenAI宣布由于准确率过低,该工具已不再可用。2025年12月对该网站的验证显示OpenAI并未恢复该工具的开发。
尽管如此,根据OpenAI提供的初始数据,该AI检测工具在91%的情况下正确判断出人类创作了文本(即真正的阴性结果)。然而,9%的误报率(FPR)意味着大约有10%的作者会被误判为使用了AI来撰写文本,而实际上他们并未使用AI。另一方面,该检测工具的阳性检测率仅为26%,即只有26%的情况下正确识别出AI生成的文本。因此,该检测工具的阴性漏检率高达74%,无法识别出AI生成的文本。这意味着使用者可以在不公开使用AI的情况下逃避检测。不过,如果AI检测工具能够根据人类文本与AI生成文本之间的语言差异提高敏感性[25],未来不诚实的行为可能会更容易被发现。目前,OpenAI的AI检测工具具有较低的敏感性和较高的特异性,尽管前者是其弱点,但研究表明,较低的检测工具面对的普及率(PR)会导致较差的检测能力[4]。正如我们后续所展示的,这种低敏感性会机械性地降低AI使用的实际普及率。
尽管近期有多篇综述文章全面探讨了AI生成文本检测的现状,包括方法论分类、系统架构以及对学术诚信的广泛影响[Perkins, 2023; [17,51,71],但这些综述并未提供根据实际观察到的敏感性、特异性和使用普及率调整后的诊断准确性估计或误报率(FDR)。本文通过整合关于检测工具性能的最新实证数据,并应用流行病学中广泛使用的诊断准确性公式,得出了在各种学术和出版情境下的实际误报率(FDR)。这种基于普及率调整的概率视角弥补了现有综述的不足,指出了在何种实证条件下AI检测结果可能不可靠或具有误导性。