揭示生成式AI视觉创造力短板：一项关于人类与AI视觉想象力差距的持续研究

时间：2026年3月25日

来源：Advanced Science

编辑推荐：

本研究探索了在视觉创造力领域中生成式AI（GenAI）是否如语言模型一样能超越人类。研究人员比较了人类视觉艺术家、非艺术家与Stable Diffusion模型在不同提示条件下的图像创造力，并评估了GPT-4o作为创造力评分者的能力。结果显示，人类在视觉创造力上仍具优势，且人类提示可显著提升AI表现。这挑战了“AI创造力普遍超越人类”的论断，揭示了视觉领域存在独特挑战，对评估和开发AI的创造力具有重要意义。

在生成式人工智能（Generative AI, GenAI）风靡全球的当下，大型语言模型（Large Language Models, LLMs）在发散去思考（Divergent Thinking, DT）任务中展现出媲美甚至超越人类创造力的惊人潜力。它们被赋予了“人工智能缪斯”、“惊叹引擎”等称号，似乎预示着一个AI驱动创意爆发的时代。然而，一个关键问题悬而未决：这种看似强大的创造力是否仅限于语言领域？当AI拿起画笔，进行“脑补”和视觉创造时，它还能与人类一较高下吗？这正是《Advanced Science》期刊上这项研究所要探究的核心议题。视觉创造力是人类想象力的核心体现，涉及从感知到高阶认知的复杂过程，即“创造性心理意象（Creative Mental Imagery, CMI）”。现有研究过度依赖语言类任务评估AI创造力，可能高估了其能力，导致对AI视觉创造力的认知存在巨大空白。为了弥补这一缺失，研究者们精心设计了一项实验，将人类与AI置于同一“画布”上进行创作力比拼和鉴赏力考验。

研究人员采用了一项名为“创造性意象能力测试（Test of Creative Imagery Abilities, TCIA）”的任务范式，并巧妙融入了对AI模型“人类指导”程度的考量。他们构建了四个图像生成组：人类视觉艺术家、人类非艺术家、人类启发式AI（Human-Inspired GenAI, HI-GenAI，采用人类想法的详细提示）和自我引导式AI（Self-Guided GenAI, SG-GenAI，使用基础提示）。AI图像由经过人类绘图微调的Stable Diffusion XL模型生成，并使用ControlNet技术以TCIA抽象图片作为引导。随后，他们创建了一个包含1000张图片的数据集，并招募了255名人类评分者以及通过GPT-4o API模拟的两种AI评分者（基准GPT-4o和基于上下文学习的引导式GPT-4o）分别对图片的“喜爱度”、“生动性”、“原创性”、“美学”和“好奇心”五个维度进行评分。在数据分析中，研究者运用了因子分析、线性混合效应模型、主成分分析和聚类分析等多种统计方法，以评估创造力的整体得分、各组表现差异以及人类与AI评分模式的一致性。

结果部分

1.
人类评分结果：人类生成的图片在创造力上显著优于AI生成的图片，呈现清晰的创造力梯度：视觉艺术家 > 非艺术家 ≥ 人类启发式AI > 自我引导式AI。具体而言，人类视觉艺术家的创造力得分最高，其后依次是非艺术家和人类启发式AI（二者在总体创造力上差异不显著），而自我引导式AI的创造力得分最低。这一结果在创造力各分维度上也基本保持一致。值得注意的是，人类评分者对AI生成的图片给予了更保守的评价，但在“人类启发”的提示下，AI的创作水平能够接近非专业人类。
2.
GPT-4o评分结果：基准GPT-4o评分与人类评分模式存在明显差异。它未能有效区分不同图片类别之间的创造力差异，尤其是在对人类启发式AI和自我引导式AI图片的评分上更为宽泛，有时甚至比人类评分更高，且区分度更低。相比之下，经过上下文学习、参考了人类评分示例的引导式GPT-4o的评分模式则与人类高度相似，重现了“视觉艺术家 > 非艺术家 ≥ 人类启发式AI > 自我引导式AI”的创造力梯度。
3.
人类与AI评分者异同：人类与基准GPT-4o评分之间的相关性虽为正但较弱，而与引导式GPT-4o的相关性则显著增强。统计分析（如混合效应Beta回归和聚类分析）进一步证实，人类和AI评分模式在统计学上存在显著差异。基准GPT-4o的评分模式最为特殊，引导式GPT-4o的评分则介于人类和基准GPT-4o之间，但更接近于人类。人类评分者内部一致性较高，而AI评分者的评分则显示出更大的变异性。

结论与讨论

本研究得出的核心结论是：在视觉创造力领域，存在着持续的人类-AI能力鸿沟。与在语言DT任务中的表现不同，AI在视觉创造力任务中未能超越人类，反而表现出明显的劣势。这挑战了“AI创造力普遍超越人类”的简单论断，表明视觉创造力对AI而言存在独特挑战。研究强调了两个方面的重要意义：

首先，人类引导是关键。无论是AI的创造力生成（人类启发式AI提示）还是评估（引导式GPT-4o的上下文学习），高质量的人类输入都至关重要。它能将AI的创造力和评估能力提升至接近人类水平的程度。这表明，当前最先进的AI模型仍非自主的创造性主体，其“创造力”严重依赖人类提供的概念、语境和评估框架。自我引导式AI在抽象刺激和模糊提示下的表现不佳，凸显了AI在缺乏人类提供的“现实世界连接”时，难以自发地进行“创造性想象”。

其次，任务范式影响结论。研究指出，过往研究多基于语言DT任务，这类任务结构明确、语义性强，易于量化（如流畅性、灵活性），而这恰恰是AI计算能力的优势所在，可能无意中高估了其创造力。本研究采用的TCIA是基于抽象视觉刺激的想象力任务，更开放、依赖于感知和语境敏感性，这些更多是人类特有的、难以从语言模型直接迁移的能力，因此更能揭示出人类与AI在创造力本质上的差异。AI评分者在评估视觉创造力时表现出的局限性（特别是基准GPT-4o），也可能源于其多模态训练主要关注图像-文本对齐，而非主观、依赖于语境和文化的创造性评价维度。

因此，这项研究的意义在于，它为理解AI创造力的边界提供了新的、更细致的视角。它表明，在评估和宣称AI的创造力时，需要超越以语言为中心的任务，采用更广泛、更贴近人类创造性体验的衡量标准。该研究也暗示，AI的“创造力”在本质上可能不同于人类那根植于生物进化、在开放世界中通过与复杂环境持续互动而发展出的、具有意向性和适应性的创造力。尽管技术前景广阔，但当前模型在视觉创造力方面要达到真正的自主人类水平，仍有很长的路要走，人机协同而非完全替代，可能是通往更高创造力的有效途径。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部