AI 写作鉴别大挑战：学者与智能工具的较量 —— 以牙科领域为例

时间：2025年4月3日

来源：Scientific Reports

编辑推荐：

为解决如何鉴别 ChatGPT 生成的内容问题，研究人员开展了评估学者（资深和年轻）、AI 探测器（GPT-2 输出探测器、Writefull GPT 探测器、GPTZero）和抄袭探测器鉴别能力的研究。结果表明各方法均有错误假设，GPTZero 和相似性探测器鉴别能力出色。该研究对保障学术诚信意义重大。

近年来，人工智能（AI）技术飞速发展，ChatGPT 作为一款强大的 AI 语言模型，在全球范围内引发了广泛讨论。它能快速生成文本内容，这既为人们带来了便利，也带来了诸多问题。在学术领域，ChatGPT 的使用模糊了人类创作和机器生成内容的界限，引发了对学术诚信的担忧。一方面，它可能被用于作弊，影响学术研究的真实性和可靠性；另一方面，其生成内容的准确性和科学性也难以保证，可能导致错误信息传播。为了解决这些问题，来自马来西亚理科大学牙科学院等多个机构的研究人员开展了一项研究，该研究成果发表在《Scientific Reports》上。

研究人员采用了多种技术方法来开展这项研究。首先，通过随机和系统抽样，从 8 种高影响力的牙科相关期刊中收集了 2023 年前 5 个月发表的 80 篇原创研究文章的标题和摘要作为人类撰写的样本。同时，利用 ChatGPT 3.5 对这些人类撰写的内容进行改写，生成 80 篇 AI 撰写的标题和摘要。之后，选取 4 名（2 名资深和 2 名年轻）牙科专业的学者，让他们依据特定的评分标准对 160 篇摘要进行阅读、分类和质量评分。此外，还使用了 Turnitin® 的抄袭探测器以及 GPT-2 输出探测器、Writefull GPT 探测器、GPTZero 这 3 种 AI 输出探测器对 AI 撰写的摘要进行检测。最后，运用 IBM SPSS 软件版本 27.0 进行统计分析，包括交叉表分析、卡方分析和双变量相关性分析等。

研究结果主要从以下几个方面呈现：

学者鉴别结果：所有学者都存在一定数量的错误判断，不同学者之间的鉴别结果存在显著差异。例如，资深学者 1 和年轻学者 1 的鉴别结果无显著关联（），而资深学者 2 和年轻学者 2 的结果则存在显著差异（）。在摘要质量评估方面，新开发的评分标准有效，学者们普遍将人类撰写的摘要评为优秀或中等质量，AI 撰写的摘要则多为良好或较差质量，且质量评估结果与摘要类型结果显著相关（）。
AI 探测器鉴别结果：GPT-2 输出探测器与摘要类型的相关性不显著（），原因是它对 53 篇 AI 撰写的摘要给出了较低的检测分数。Writefull GPT 探测器和 GPTZero 与摘要类型的相关性显著（），且 GPTZero 能正确分类大多数摘要。Turnitin® 抄袭探测器给所有人类撰写的摘要相似度指数为 100%，其与摘要类型的相关性很强且显著。
鉴别准确性：在鉴别摘要类型方面，资深学者 2 的准确率高达 92.50%，在所有学者中表现突出；GPTZero 的准确率为 92.60%，在 AI 探测器中表现最佳。在摘要质量评估方面，一名资深学者和一名年轻学者分别达到了 87.5% 和 82.5% 的较高准确率。

研究结论和讨论部分指出，ChatGPT 对学术研究和写作产生了重大影响，虽然 AI 工具在一定程度上有助于学术写作，但也带来了诸多问题。资深学者在鉴别 AI 生成内容方面通常比年轻学者表现更优，这得益于他们丰富的经验和敏锐的批判性分析能力。然而，人类普遍难以区分人类和 AI 撰写的内容，而像 GPTZero 这样的 AI 工具在鉴别方面具有明显优势，其高准确率表明它可以作为识别 AI 生成内容的有效工具。不过，AI 探测器也存在局限性，如训练数据的限制、AI 技术的不断发展以及潜在的偏差等，因此不能完全依赖 AI 检测工具，还需要人类的监督和验证。此外，研究还发现 Turnitin® 抄袭探测器在鉴别 AI 撰写内容方面也有一定作用。

这项研究的意义重大，它为学术界提供了关于鉴别 AI 生成内容的重要参考，有助于制定更有效的学术诚信政策。对于教育行业和科研领域来说，研究结果提醒人们要重视 AI 技术带来的挑战，不断探索更有效的鉴别方法，平衡创新与学术诚信之间的关系。同时，也为未来进一步研究如何准确识别 AI 生成材料指明了方向，促使研究人员开发更精准的检测方法，以应对不断发展的 AI 技术。