人类与大型语言模型的发散性创造力比较研究:基于语义多样性的系统性评估

时间:2026年1月22日
来源:Scientific Reports

编辑推荐:

本研究针对当前关于大型语言模型(LLM)创造力评估的争议,系统性地比较了多种先进LLM与10万人类参与者在发散联想任务(DAT)及多种创意写作任务(如俳句、电影简介、微型小说)上的表现。研究发现,GPT-4在DAT上的得分超越了人类平均水平,但在更具创造力的人类群体(如前10%)面前仍存在差距。研究还揭示了通过调整提示策略和模型温度(temperature)可有效调控LLM的语义发散性。该研究为评估人工智能的创造力提供了一个客观、可量化的基准框架,并对理解人类与机器创造力的异同具有重要意义。

广告
   X   

近年来,以GPT-4为代表的大型语言模型(LLM)在各类语言任务上展现出惊人能力,甚至引发了其是否具备人类级别创造力的讨论。这种讨论交织着兴奋与担忧。然而,一个关键问题在于,此前缺乏对LLM语义多样性的系统性评估,特别是与人类发散性思维的对比研究。为了填补这一空白,一项发表于《Scientific Reports》的研究,利用计算创造力领域的最新进展,对顶尖的LLM和一个包含10万人的大型人类数据集进行了语义发散性分析。
研究的核心在于评估联想思维——即访问并组合语义空间中遥远概念的能力,这是创造性认知中一个公认的维度。研究人员采用发散联想任务(DAT)和多种创意写作任务(俳句、故事梗概、微型小说)作为基准,并使用相同、客观的评分标准。DAT要求参与者生成10个在含义和用法上尽可能不同的单词,并通过计算词嵌入(如GLoVe模型)之间的平均余弦相似度来量化语义发散性,得分越高代表创造力越强。
研究的主要发现令人瞩目。在DAT上,GPT-4的表现显著超过了人类平均水平,而GeminiPro的表现与人类平均水平在统计上无显著差异。有趣的是,规模小得多的Vicuna模型表现优于一些更大的模型。然而,即使是表现最佳的LLM,其得分也未能超过人类参与者中更具创造性的群体(如前50%、25%和10%的平均分)。这表明,尽管LLM在平均水平上表现出色,但最具创造力的人类个体仍保持着优势。研究还观察到,后续发布的GPT-4-turbo模型在DAT上的表现相比GPT-4有所下降,提示模型优化可能伴随着语义多样性降低的权衡。
为了验证DAT在LLM评估中的有效性,研究人员设置了对照实验,即仅要求模型列出10个单词而不强调语义差异。结果发现,所有模型在接收到DAT指令后的得分均显著高于对照条件,证明模型确实遵循了任务要求而非随机生成单词。
研究进一步探索了调控LLM创造力的方法。通过调整模型温度(控制输出随机性的超参数),发现提高GPT-4的温度能显著提升其DAT得分,并减少词语重复频率,表明更高的温度促进了更广泛的语义探索。此外,通过设计不同的提示策略(如要求模型使用“词源变异”策略),也能可靠地提升模型的语义发散性得分。这表明,通过精心设计的提示和超参数调整,可以有效地引导LLM产生更具创造性的输出。
为了检验DAT表现能否推广到更复杂的创意任务,研究评估了LLM在创意写作(俳句、电影简介、微型小说)上的表现,并使用了发散语义整合(DSI)和Lempel-Ziv(LZ)复杂度等指标。DSI通过BERT模型生成上下文相关的词嵌入,并计算句子间词嵌入的余弦相似度来衡量叙事中的语义整合多样性。结果发现,GPT-4在创意写作任务中的DSI得分 consistently高于GPT-3.5,但人类创作的文本在DSI得分上仍显著高于LLM。提高温度同样能提升GPT-4在故事梗概和微型小说写作中的DSI得分,但在结构严谨的俳句中效果不明显。LZ复杂度的结果与DSI在多数情况下趋势一致。主成分分析(PCA)对文本嵌入的可视化显示,人类文本和不同LLM生成的文本在嵌入空间中形成了可区分的聚类,反映了写作风格和主题内容的差异。
关键技术方法概述
本研究主要采用了以下几种关键技术方法:1. 发散联想任务(DAT):用于量化人类和LLM的发散性思维,通过计算词嵌入(如GLoVe)的余弦相似度得出语义距离分数。2. 发散语义整合(DSI):用于评估创意写作的语义多样性,基于BERT模型生成上下文相关的词嵌入并计算句子间的语义距离。3. Lempel-Ziv(LZ)复杂度:一种信息论方法,通过评估文本的可压缩性来衡量其冗余度和多样性。4. 主成分分析(PCA):用于对文本嵌入(使用OpenAI的text-embedding-ada-002模型生成)进行降维和可视化,以比较不同来源文本的风格和内容分布。人类数据来自10万人的在线DAT测试(年龄和性别平衡的英语使用者)以及公开的文本库(如TMDB的电影简介和Temps Libre的俳句)。
研究结果详述
比较LLM与人类在DAT上的创造力
研究结果显示,不同LLM在DAT上的表现存在显著差异。GPT-4的平均DAT得分最高,且显著高于人类平均水平。GeminiPro的平均得分与人类平均水平无统计学差异。值得注意的是,规模较小的Vicuna模型表现优于Claude3和GPT-3.5等更大模型。统计分析表明,除了Humans/GeminiPro、GeminiPro/Claude3以及Vicuna/GPT-3.5这几对对比外,其他模型间的平均DAT得分差异均具有统计学意义。低分模型通常表现出更大的变异性,且往往更不遵循指令。词频分析发现,LLM(尤其是GPT-4-turbo和GPT-4)的回答中存在高频词重复现象(如“ocean”, “microscope”, “elephant”),而人类选择的词语则非常分散。
评估DAT在LLM中的有效性
与对照条件(仅生成普通单词列表)相比,所有被测LLM在接收到标准DAT指令后,其DAT得分均出现极显著(p<.001)提升。这证实了LLM能够理解并遵循DAT的任务要求,其高得分并非源于随机的词语分布。
模型温度对创造力得分的影响
提高GPT-4的温度设置能显著提升其DAT得分。在最高温度(1.5)条件下,其平均得分超过了72%的人类参与者。同时,词语重复频率随温度升高而降低,表明更高的温度促进了更多样化的词语选择,减少了输出的确定性。
探索调控LLM表现的策略
不同的提示策略对LLM的DAT表现有显著影响。要求使用“词源变异”策略能显著提升GPT-3.5和GPT-4的得分。而要求使用“意义对立”策略则显著降低了得分,因为反义词对(如“light/darkness”)的语义距离通常较小。这些发现表明,通过特定的提示设计可以有效地调控LLM的创造性输出。
探究LLM在创意写作任务上的表现
在创意写作任务中,GPT-4的DSI得分在所有写作形式(俳句、故事梗概、微型小说)上均高于GPT-3.5,但人类写作的DSI得分仍然最高。温度升高能提升GPT-4在故事梗概和微型小说中的DSI得分,但对俳句影响不显著。LZ复杂度的结果模式大多与DSI一致,但在故事梗概中,人类的LZ得分低于LLM,与DSI结果相反。PCA可视化显示,不同LLM以及人类生成的文本在嵌入空间中形成了不同的聚类,表明其写作风格和内容存在可区分的模式。
研究结论与讨论
本研究通过大规模、系统性的比较,揭示了当前顶尖LLM在语义发散性这一创造力维度上已达到甚至超越了普通人类的平均水平,但尚未能超越最具创造力的人类个体。研究建立了一个结合DAT、DSI和LZ复杂度等多种客观指标的人机创造力评估框架,该框架能够有效区分和量化LLM与人类的创造性语言输出。
研究的意义在于,它将创造力评估纳入了LLM性能基准测试的标准工具箱,超越了传统上侧重于收敛性思维(如标准化考试)的评估范式。研究结果也表明,通过提示工程和超参数调优(如调整温度),可以有效地引导和增强LLM的创造性输出,这为未来的人机协作创意应用提供了技术可能性。然而,LLM创造力的实现机制与人类有本质不同,LLM缺乏人类的具身经验和认知约束。因此,在解释LLM的“创造力”得分时需保持谨慎,未来的研究需要结合人类专家评估和更细致的机制分析。
总之,这项工作不仅为评估人工智能的创造力提供了重要的方法论和基准,也促使我们更深入地思考人类创造性思维与人工智能生成内容之间的根本区别与潜在联系,为未来负责任的人机协同创新奠定了基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有