揭示生成式AI视觉创造力短板:一项关于人类与AI视觉想象力差距的持续研究

时间:2026年3月25日
来源:Advanced Science

编辑推荐:

本研究探索了在视觉创造力领域中生成式AI(GenAI)是否如语言模型一样能超越人类。研究人员比较了人类视觉艺术家、非艺术家与Stable Diffusion模型在不同提示条件下的图像创造力,并评估了GPT-4o作为创造力评分者的能力。结果显示,人类在视觉创造力上仍具优势,且人类提示可显著提升AI表现。这挑战了“AI创造力普遍超越人类”的论断,揭示了视觉领域存在独特挑战,对评估和开发AI的创造力具有重要意义。

广告
   X   

在生成式人工智能(Generative AI, GenAI)风靡全球的当下,大型语言模型(Large Language Models, LLMs)在发散去思考(Divergent Thinking, DT)任务中展现出媲美甚至超越人类创造力的惊人潜力。它们被赋予了“人工智能缪斯”、“惊叹引擎”等称号,似乎预示着一个AI驱动创意爆发的时代。然而,一个关键问题悬而未决:这种看似强大的创造力是否仅限于语言领域?当AI拿起画笔,进行“脑补”和视觉创造时,它还能与人类一较高下吗?这正是《Advanced Science》期刊上这项研究所要探究的核心议题。视觉创造力是人类想象力的核心体现,涉及从感知到高阶认知的复杂过程,即“创造性心理意象(Creative Mental Imagery, CMI)”。现有研究过度依赖语言类任务评估AI创造力,可能高估了其能力,导致对AI视觉创造力的认知存在巨大空白。为了弥补这一缺失,研究者们精心设计了一项实验,将人类与AI置于同一“画布”上进行创作力比拼和鉴赏力考验。
研究人员采用了一项名为“创造性意象能力测试(Test of Creative Imagery Abilities, TCIA)”的任务范式,并巧妙融入了对AI模型“人类指导”程度的考量。他们构建了四个图像生成组:人类视觉艺术家、人类非艺术家、人类启发式AI(Human-Inspired GenAI, HI-GenAI,采用人类想法的详细提示)和自我引导式AI(Self-Guided GenAI, SG-GenAI,使用基础提示)。AI图像由经过人类绘图微调的Stable Diffusion XL模型生成,并使用ControlNet技术以TCIA抽象图片作为引导。随后,他们创建了一个包含1000张图片的数据集,并招募了255名人类评分者以及通过GPT-4o API模拟的两种AI评分者(基准GPT-4o和基于上下文学习的引导式GPT-4o)分别对图片的“喜爱度”、“生动性”、“原创性”、“美学”和“好奇心”五个维度进行评分。在数据分析中,研究者运用了因子分析、线性混合效应模型、主成分分析和聚类分析等多种统计方法,以评估创造力的整体得分、各组表现差异以及人类与AI评分模式的一致性。
结果部分
  1. 1.
    人类评分结果:人类生成的图片在创造力上显著优于AI生成的图片,呈现清晰的创造力梯度:视觉艺术家 > 非艺术家 ≥ 人类启发式AI > 自我引导式AI。具体而言,人类视觉艺术家的创造力得分最高,其后依次是非艺术家和人类启发式AI(二者在总体创造力上差异不显著),而自我引导式AI的创造力得分最低。这一结果在创造力各分维度上也基本保持一致。值得注意的是,人类评分者对AI生成的图片给予了更保守的评价,但在“人类启发”的提示下,AI的创作水平能够接近非专业人类。
  2. 2.
    GPT-4o评分结果:基准GPT-4o评分与人类评分模式存在明显差异。它未能有效区分不同图片类别之间的创造力差异,尤其是在对人类启发式AI和自我引导式AI图片的评分上更为宽泛,有时甚至比人类评分更高,且区分度更低。相比之下,经过上下文学习、参考了人类评分示例的引导式GPT-4o的评分模式则与人类高度相似,重现了“视觉艺术家 > 非艺术家 ≥ 人类启发式AI > 自我引导式AI”的创造力梯度。
  3. 3.
    人类与AI评分者异同:人类与基准GPT-4o评分之间的相关性虽为正但较弱,而与引导式GPT-4o的相关性则显著增强。统计分析(如混合效应Beta回归和聚类分析)进一步证实,人类和AI评分模式在统计学上存在显著差异。基准GPT-4o的评分模式最为特殊,引导式GPT-4o的评分则介于人类和基准GPT-4o之间,但更接近于人类。人类评分者内部一致性较高,而AI评分者的评分则显示出更大的变异性。
结论与讨论
本研究得出的核心结论是:在视觉创造力领域,存在着持续的人类-AI能力鸿沟。与在语言DT任务中的表现不同,AI在视觉创造力任务中未能超越人类,反而表现出明显的劣势。这挑战了“AI创造力普遍超越人类”的简单论断,表明视觉创造力对AI而言存在独特挑战。研究强调了两个方面的重要意义:
首先,人类引导是关键。无论是AI的创造力生成(人类启发式AI提示)还是评估(引导式GPT-4o的上下文学习),高质量的人类输入都至关重要。它能将AI的创造力和评估能力提升至接近人类水平的程度。这表明,当前最先进的AI模型仍非自主的创造性主体,其“创造力”严重依赖人类提供的概念、语境和评估框架。自我引导式AI在抽象刺激和模糊提示下的表现不佳,凸显了AI在缺乏人类提供的“现实世界连接”时,难以自发地进行“创造性想象”。
其次,任务范式影响结论。研究指出,过往研究多基于语言DT任务,这类任务结构明确、语义性强,易于量化(如流畅性、灵活性),而这恰恰是AI计算能力的优势所在,可能无意中高估了其创造力。本研究采用的TCIA是基于抽象视觉刺激的想象力任务,更开放、依赖于感知和语境敏感性,这些更多是人类特有的、难以从语言模型直接迁移的能力,因此更能揭示出人类与AI在创造力本质上的差异。AI评分者在评估视觉创造力时表现出的局限性(特别是基准GPT-4o),也可能源于其多模态训练主要关注图像-文本对齐,而非主观、依赖于语境和文化的创造性评价维度。
因此,这项研究的意义在于,它为理解AI创造力的边界提供了新的、更细致的视角。它表明,在评估和宣称AI的创造力时,需要超越以语言为中心的任务,采用更广泛、更贴近人类创造性体验的衡量标准。该研究也暗示,AI的“创造力”在本质上可能不同于人类那根植于生物进化、在开放世界中通过与复杂环境持续互动而发展出的、具有意向性和适应性的创造力。尽管技术前景广阔,但当前模型在视觉创造力方面要达到真正的自主人类水平,仍有很长的路要走,人机协同而非完全替代,可能是通往更高创造力的有效途径。

生物通微信公众号
微信
新浪微博


生物通 版权所有