基于词汇超量分析揭示生物医学文献中LLM辅助写作的广泛影响

时间:2025年7月3日
来源:SCIENCE ADVANCES

编辑推荐:

本研究通过分析2010-2024年PubMed收录的1510万篇生物医学摘要,首次采用无监督的"词汇超量"方法量化了ChatGPT等大语言模型(LLM)对学术写作的影响。研究发现2024年至少13.5%的摘要存在LLM使用痕迹,部分子领域高达40%,其影响远超COVID-19等重大事件引发的词汇变化,为学术诚信监测提供了创新方法论。

广告
   X   

在科研写作领域,一场静默的革命正在发生。自2022年11月ChatGPT问世以来,大语言模型(LLM)以人类水平的文本生成能力迅速渗透学术界,既带来了写作效率的提升,也引发了关于学术诚信、事实准确性和风格同质化的深刻忧虑。传统检测方法依赖人工标注的"真实文本"与"机器生成文本"对比,存在模型偏见和透明度不足的局限,更无法回答一个根本问题:LLM对科学写作的影响是否超越了历史上重大事件(如COVID-19大流行)造成的语言变迁?

为破解这一难题,研究人员开展了一项开创性研究。通过分析PubMed数据库2010-2024年间1510万篇生物医学英文摘要,研究团队开发了创新的"词汇超量分析"方法。该方法无需预先标注训练集,而是通过监测特定词汇使用频率的异常增长来追踪LLM的使用痕迹。论文发表在《SCIENCE ADVANCES》期刊,为学术界提供了首个大规模、无偏见的LLM使用量化证据。

研究采用三大关键技术:1)基于PubMed年度快照构建包含273,112个词汇的稀疏二元矩阵;2)通过线性外推法计算词汇的预期使用频率,定义超量频率比(r=p/q)和超量频率差(δ=p-q)两个核心指标;3)结合人工标注与自动聚类,将异常词汇区分为内容词(如"covid")与风格词(如"delves")。所有分析均基于去除了版权声明等干扰文本的清洁数据集。

【Excess words indicate widespread LLM usage】
研究发现2024年有454个词汇呈现异常高频使用,数量是COVID高峰期的2.4倍。关键区别在于:COVID相关词汇多为名词(占79.2%),而2024年异常词中66%为动词(如"showcasing")、14%为形容词(如"intricate"),且多为与内容无关的风格词。典型LLM偏好词包括"delves"(r=28.0)、"underscores"(r=13.8)和"potential"(δ=0.052),这些词汇在2013-2019年间从未出现显著波动。

【Combining excess words puts a lower bound on LLM usage】
通过组合291个低频风格词(如"meticulously")和10个高频词(如"particularly"),研究计算出2024年至少有13.6%的摘要经过LLM处理。这一保守估计远超COVID文献峰值比例(6.9%),且两个独立词集得出的结果高度一致(Δrare=0.136 vs Δcommon=0.134),证实方法的稳健性。

【Lower bounds differed between subcorpora】
LLM使用存在显著异质性:计算生物学领域(20%)、中国学者(20%)、MDPI出版社期刊(21%)使用率最高;而《Nature》《Science》《Cell》等顶级期刊仅7%。极端案例中,韩国作者在《Sensors》期刊的论文LLM使用痕迹达34%,中国计算生物学论文高达41%。性别差异微弱(男性11% vs 女性10%)。

讨论部分指出,13.5%仅是下限估值,实际LLM使用可能更高——当作者有意识地修改LLM输出的风格词时,现有方法无法捕捉。研究揭示了三个关键现象:1)LLM影响在规模上超越历史事件,在性质上呈现独特的"动词/形容词主导"模式;2)开放获取期刊与英语非母语国家使用率更高,反映LLM可能被用于语言润色;3)高影响力期刊的低使用率暗示 detectable LLM usage与学术声誉存在负相关。

这项研究的意义远超方法论创新。它为科研管理机构提供了监测工具,其"词汇超量"框架可扩展至基金申请、同行评审等场景。作者警示,LLM的大规模应用可能导致科学写作的同质化,掩盖事实性错误,甚至被论文工厂滥用。正如文中那个典型的LLM生成句式所示:"本研究通过深入探究(delving into)X与Y之间错综复杂(intricate)的关联,强调(underscores)了Z的关键(crucial)作用"——当这样的表达充斥文献时,科学交流的本质或将发生深刻改变。研究最后呼吁学术界建立透明化的LLM使用政策,同时研发事实核查型(retrieval-augmented)LLM系统,在利用技术优势的同时守护科研诚信。

生物通微信公众号
微信
新浪微博


生物通 版权所有