人工智能(AI)语言模型整合入医学文献需要对其准确性与可靠性进行严格评估,尤其是在专业领域。本研究评估了ChatGPT-5生成关于阴茎假体植入术(Penile Prosthesis Implantation, PPI)临床准确科学内容的能力。通过使用结构化提示,ChatGPT-5生成了一篇叙述性综述,并从四个领域进行评估:(1)事实陈述的验证,(2)通过PubMed和Google Scholar验证参考文献有效性,(3)使用iThenticate和Quetext进行剽窃筛查,以及(4)使用叙述性综述文章评估量表(Scale for the Assessment of Narrative Review Articles, SANRA)和同行评审评分表进行定性评估。ChatGPT-5整体上表现出较高的事实准确性,正确支持了大多数陈述,但在历史时间线和生存数据方面发现了错误。相比之下,参考文献分析揭示了显著的弱点,只有约三分之一的引用完全准确,且多处存在虚构或不完整的书目细节。文本相似度较低。根据标准化评估工具,整体质量被评为良好,评审员之间具有高度一致性。总之,这些发现表明ChatGPT-5能够生成临床准确、结构良好的内容,但在参考文献可靠性和证据综合方面存在重要缺陷。结果支持一种混合模式,即人工智能在专家监督下作为起草辅助工具,而非独立作者。未来的工作应优先加强引用有效性,以增强可靠性,同时维护科学诚信。
基于人工智能(Artificial Intelligence, AI)的语言模型,如ChatGPT(OpenAI, San Francisco, CA, USA),已迅速改变了科学文本的生成方式,能够根据用户提示生成连贯且上下文相关的输出[1]。这些工具在学术环境中越来越多地用于文献总结、起草和翻译。然而,它们在科学著述中的角色仍存在争议,特别是在有报告将ChatGPT列为共同作者以及对其责任和伦理标准的担忧之后[2]。
先前评估ChatGPT在医学领域应用的研究已发现其重要局限性,包括事实错误、虚构参考文献以及领域特定深度不足[3]。尽管ChatGPT-5在语言处理和上下文推理方面有所改进[4],但其在高度专业化外科领域生成科学可靠内容的能力尚未得到系统评估。考虑到虚假信息的潜在风险和学术医学的伦理影响,在更广泛实施前,对人工智能生成的科学文本进行仔细评估是必要的[5]。
阴茎假体植入术(Penile Prosthesis Implantation, PPI)是一项技术要求高且基于证据的外科手术领域,使其成为测试人工智能生成学术内容可靠性的合适模型[6]。本研究旨在评估ChatGPT-5生成一篇关于PPI叙述性综述的能力,并系统评估其事实准确性、参考文献有效性、原创性以及整体报告质量。
材料与方法
研究设计与范围
本方法学评估研究探讨了ChatGPT-5生成关于PPI叙述性综述的能力。选择该手术作为测试案例,是因为它代表了一项技术细节丰富且基于证据的泌尿外科手术,拥有广泛且记录良好的科学文献,使得人工智能生成内容与既定知识之间能够进行结构化比较。
由于该研究未涉及人类受试者、临床数据或可识别的健康信息,因此无需机构审查委员会批准。
ChatGPT-5叙述性综述生成
通过结构化提示策略使用ChatGPT-5生成了一篇关于PPI的叙述性综述,旨在反映研究者独立向大型语言模型请求叙述性综述的标准学术使用场景。完整提示列表见补充信息(补充文件1)。
该过程以以下指令开始:“撰写一篇关于阴茎假体植入术的科学综述草稿,涵盖临床、外科和以患者为中心的方面。我们希望综述简洁,因此将草稿限制在最相关的主题。”ChatGPT-5响应生成了一个定义手稿结构的大纲。该大纲并非由作者预先设定,而是由模型本身生成。
随后,使用源自此人工智能生成大纲的部分特定提示,单独生成每个部分。例如,外科技术部分使用一个指定了手术入路、复杂解剖结构处理、感染预防和围手术期护理的针对性提示生成。在生成每个部分后,ChatGPT-5被指示提供五篇同行评审参考文献以支持前述内容。要求每个部分恰好提供五篇参考文献是预先设定的,以标准化各部分输出长度,并便于引用准确性的一致比较评估。
本研究未旨在优化提示工程性能或比较替代提示策略。未进行迭代优化或基于性能的提示选择。为评估响应变异性,部分提示在单独会话中重复;然而,为保持方法学一致性并避免选择性报告,仅将每个预定义提示的首次完整输出纳入正式评估。
事实准确性评估
提取了人工智能生成的综述中所有通常需要在同行评审手稿中引用的事实陈述。两名独立的男科医生(MG, FO)评估了这些陈述,他们具有PPI临床专业知识。每项陈述通过在PubMed和Google Scholar中进行针对性搜索进行验证。陈述被分类为:
支持(与现有文献一致)
部分支持(不完整或上下文不一致)
不支持(未发现可信的支持证据)
此分类框架(支持、部分支持、不支持)与先前发表的评估人工智能生成科学内容的方法一致[7],并已广泛用于近期大型语言模型研究的可靠性评估。只有当一项陈述与当代同行评审证据的主流或既定临床指南一致时,才被视为支持。当研究间存在差异(例如,不同的生存率或并发症率)时,优先考虑系统评价、荟萃分析、大型当代队列研究或指南声明。如果证据相互冲突或依赖于上下文,则该陈述被归类为部分支持。最终分类需要两位评审员(MG, FO)达成共识。
参考文献准确性评估
对于每个部分,ChatGPT-5提供的五篇参考文献通过PubMed、Google Scholar、CrossRef以及必要时通过期刊官方网站独立验证。系统地交叉核对了参考文献元数据——包括标题、作者、期刊名称、出版年、卷/期、页码范围和DOI——与原始出版记录。参考文献被分为三类:
完全准确:引用的文章对应真实的、同行评审的出版物,并且所有主要的书目要素(标题、作者、期刊、年份和DOI或等效标识符)均正确报告。
部分不准确:存在真实且可识别的同行评审出版物;然而,一个或多个书目要素(例如,作者列表、出版年、卷/期号、页码范围或DOI)包含错误或不一致。次要的元数据错误若不影响验证底层出版物,则不视为虚构。
虚构:在主要学术数据库或期刊档案中无法找到对应的出版物,且引用细节与任何现有的同行评审文章不符。
此参考文献分类方法(完全准确、部分不准确、虚构)与先前报道的用于评估人工智能生成科学内容的引用准确性和书目可靠性的方法一致[7]。所有分类均由两位评审员(MG, FO)独立完成。不一致之处通过在重新核实源材料后达成共识来解决。
文本完整性与剽窃筛查
为评估ChatGPT-5生成手稿的原创性,将全文上传至两个广泛使用的学术剽窃检测工具:iThenticate [8] 和 Quetext [9]。两个平台都提供了整体相似度指数,任何匹配内容都经过进一步检查以确定是合理重叠(例如,常用术语)还是潜在的剽窃。被任一工具标记的每个句子都经过单独审查,如果发现潜在来源,会记录其来源及相似度百分比。
ChatGPT-5文本质量的定性评估
使用两种互补的评估框架系统性地评估了ChatGPT-5生成内容的质量,以确保从多个角度进行全面评估。
主要评估
叙述性综述质量进一步使用叙述性综述文章评估量表(Scale for the Assessment of Narrative Review Articles, SANRA)[10]进行评估,该量表提供了一个专门针对叙述性综述的结构化框架。SANRA包含六个经过验证的项目:文章重要性的论证、目标陈述、文献检索描述、参考文献质量、科学推理以及数据的适当呈现。每个项目从0(不充分)到2(充分)评分,总可能得分为0-12分。
次要评估
采用标准化的同行评审评分表,涵盖学术期刊评审过程中常用的八个核心领域:科学准确性、领域相关性、结构清晰度、内容完整性、参考文献质量、创新性、临床实用性和写作质量。每个领域使用5分李克特量表(1=差,5=优秀)评分,累计得分分为优秀(36-40)、良好(32-35)、可接受(28-31)、需要改进(24-27)和差(<24)。
评估协议
两名具有泌尿外科和循证医学专业知识的独立评审员(MG, FO)进行了两项评估。每位评审员独立完成评估,任何评分差异通过结构化共识讨论解决。两个评估工具的项目得分和总得分均被记录,提供了一个全面的质量评估框架。
研究终点
研究的主要终点是ChatGPT-5生成陈述的事实准确性。次要终点包括引用准确性、文本原创性以及通过标准化评估工具评估的整体叙述质量。
统计分析
所有数据使用SPSS 27版(IBM Corp., Armonk, NY, USA)记录和分析。计算描述性统计量。使用基于双向混合效应模型的绝对一致性组内相关系数(Intraclass Correlation Coefficient, ICC)评估评审员间信度。可靠性阈值根据既定标准进行解释。
结果
人工智能生成输出的结构
ChatGPT-5在几秒钟内响应了所有提示,并生成了一篇关于PPI的结构化叙述性综述,见补充文件2。针对初始指令,模型独立生成了一个包含引言、临床考虑、外科技术、结果与并发症、以患者为中心的方面、未来方向和结论七个部分的大纲(图1)。
图1:ChatGPT-5响应提供关于阴茎假体植入术文章大纲提示的示例。
图2显示,重复提交相同的提示会生成不同的文本输出,表明尽管指令未变,但跨会话的输出存在变异性。
标题和关键词
ChatGPT-5生成了五个备选标题(图3),均与PPI主题一致。建议的关键词(“阴茎假体”、“勃起功能障碍”、“可充气阴茎假体”、“以患者为中心的护理”和“ChatGPT”)被认为是相关的,并反映了手稿的范围。
事实准确性评估
人工智能生成的手稿未包含正文引用。专家评审确定了29个需要学术参考文献的陈述(补充表1)。其中,三个陈述(10.3%)包含错误或内部不一致。
发现的问题包括:
1. 关于可充气阴茎假体引入时间线的历史描述不精确[11]。
2. 在手稿的不同部分,对10年器械生存率的报告存在冲突[12]。
3. 不同部分的感染率估计不一致,反映了报告结果的可变性[13]。
这些差异反映了内部不一致性和上下文可变性,而非普遍的事实不可靠性。所有其余陈述均通过针对性的文献回顾得到验证和支持。
引用验证
ChatGPT-5为每个部分生成了五篇参考文献,共计28条引用。
尽管大多数引用标题对应于学术数据库中可识别的真实出版物,但只有35.7%在所有书目参数上完全准确。大约17.9%的参考文献完全是虚构的,其余部分包含部分不准确,例如作者信息错误或出版元数据不匹配。
这些发现表明,虽然引用标题通常看起来合理,但未经独立验证,书目精确性仍然不可靠。引用验证结果的详细分解见补充文件1。
文本相似度与原创性
剽窃筛查显示出极低的相似度,整体相似度指数分别为3%(iThenticate)和4%(Quetext)。对被标记片段的审查证实,重叠完全由常见的学术短语和标准科学术语构成。未发现实质性文本挪用的证据(表1)。
定性质量评估
使用SANRA工具,人工智能生成的综述获得了两名独立评审员8分和7分(满分12分)的评分,表明其中等至良好的叙述质量。
使用结构化同行评审评分表的评估得分为33分和32分(满分40分),对应于“良好”的质量等级。结构清晰度和临床相关性被评为较强,而参考文献可靠性是主要局限性。
评审员间信度分析显示,两种评估工具均具有优秀的一致性(SANRA ICC = 0.95, 95% CI: 0.87–0.98;评分表 ICC = 0.97, 95% CI: 0.91–0.99),证实了评审员间评分的一致性。
讨论
本研究提供了对ChatGPT-5在专业外科领域生成临床相关且学术结构化内容能力的系统评估。研究结果表明,虽然该模型能够生成连贯、组织良好且大部分准确的医学叙述,但在证据综合和书目可靠性方面仍存在重大局限。
本研究观察到的整体事实一致性与先前对早期ChatGPT版本在医学领域评估的结果相当[7],表明在知识表征方面有所渐进式改进。然而,内部不一致性的存在——尤其是关于历史细节、器械长期生存率和感染率方面——突显了一个持续的局限性:大型语言模型(Large Language Models, LLMs)本质上并不调和相互冲突的证据,而是再现源自异质训练数据的模式。这种无法批判性地综合不一致发现的能力具有直接的临床意义,特别是在患者咨询和共同决策等领域,精确的风险沟通至关重要[14, 15]。
在分析中发现的最重大局限性涉及参考文献的可靠性。虚构和部分不准确的引用仍然是ChatGPT各版本迭代中一个根本性挑战[7, 16]。“幻觉”引用的现象尤其成问题,因为虚构的引用通常在结构上看似合理,偶尔会包含真实的作者姓名或逼真的书目格式。这种复杂性增加了未被发现的虚假信息传播风险,并可能损害学术诚信[17]。
这一模式与对人工智能生成内容的更广泛调查结果一致。大规模媒体评估表明,多个聊天机器人系统存在频繁的来源归因错误、不准确的主张和不充分的上下文化[18]。书目失真的持续性表明,当前的语言模型模拟引用结构,而非检索经过验证的来源。因此,当使用人工智能辅助写作时,传统的编辑筛选可能不够,需要建立结构化的验证程序[19]。
相比之下,剽窃分析得出了令人放心的结果。极低的相似度指数和实质性文本重叠的缺失,与先前表明人工智能生成的文本通常产生符合学术规范的原创表面短语的研究一致[20]。然而,文本层面的原创性并不等同于认知可靠性,语言原创性与事实有效性之间的区别值得持续的学术关注。此外,传统的剽窃检测工具依赖于表面字符串匹配算法,可能无法识别由在庞大科学语料库上训练的LLMs生成的统计衍生或语义重构内容。因此,即使没有明显的文本重复,人工智能生成的写作也可能反映现有知识的概率性重组,而非真正的概念独立性。评估人工智能辅助科学写作中更深层次的知识原创性仍是一个未解决的方法学挑战。
质量评估结果表明,ChatGPT-5能够生成结构连贯、临床相关的草稿,达到中等至良好的叙述标准。然而,在方法学透明度、文献综合深度和引用严谨性方面的不足依然明显[21]。这些弱点突显了叙述流畅性与科学严谨性之间的区别。
观察到的相同提示生成输出的变异性引发了关于可重复性的额外担忧。虽然变异性可能增强创造性灵活性,但它与科学研究基本的可重复性原则相冲突。不一致的输出可能在人工智能辅助的学术写作中引入意外的偏见或不完整性[22]。
未来的调查应超越单次会话评估,系统地考察多个独立生成之间的输出变异性。纳入在标准化条件下重复提示的多运行研究设计,将能够表征性能分布、稳定性指标以及质量分数的离散度。此类方法将为评估模型在科学写作情境中的鲁棒性和可重复性提供更严格的依据。
从实践角度来看,研究结果支持一种有监督的实施模式。ChatGPT-5在作为教育性起草工具方面展现出潜在效用,特别是在生成复杂外科手术的结构化概览方面。然而,专家监督对于在学术或临床使用前验证事实准确性、协调冲突证据以及核实所有引用至关重要。
从伦理学角度看,这些发现反对将大型LLMs作为医学文献的自主作者。相反,一种协作框架——即人工智能协助起草,而人类专家保留验证和解释的责任——似乎最为合适。未来的进展应优先集成实时源验证系统和改进的证据追溯机制,以减少引用虚构并提高认知可靠性[23]。
本研究的若干局限性值得考虑。评估仅集中于单一外科领域,结果可能无法推广到其他专业。准确性评估依赖于专家评估,这本身就涉及主观判断,尽管采用了结构化的评估框架。评审员间信度估计源自两名评审员评估一份人工智能生成的文件,与评估多个文件或更大、更多样化的评审员小组相比,可能高估了一致性。提示由单一作者开发,未系统测试替代提示策略;因此,不同的提示策略可能影响了输出质量。分析反映了基于每个提示的单次会话输出的性能,未捕捉到跨重复生成的潜在变异性。本研究并非旨在表征跨多个独立生成的分布性能;因此,未评估质量指标和离散度测量在输出间的变异性。此外,研究使用公开可用的基于网页的ChatGPT界面进行,无法访问固定的API版本或模型快照。鉴于LLMs是动态更新且没有公开可用的版本控制,即使使用相同的提示,也无法保证输出的精确可重复性。此外,由于人工智能系统发展迅速,性能特征可能随时间发生变化。需要更广泛的、多领域和纵向的研究,以进一步确定人工智能在医学科学写作中的作用。
结论
在这项对ChatGPT-5生成的PPI叙述性综述的评估中,该模型产出了结构化且大部分准确的临床内容,但在参考文献可靠性和内部一致性方面表现出重要局限。鉴于分析仅限于单一外科主题,结果无法推广到更广泛的科学写作。ChatGPT-5可以在专家监督下作为起草辅助工具;然而,在学术或临床使用前,引用验证和批判性评估仍然是必不可少的。
打赏