摘要翻译
在专业艺术创作中应用生成式人工智能(Generative AI, GenAI)时,创作者面临将多维、隐性的艺术意图转化为生成模型所需的线性指令的困难,导致显著的语义鸿沟。这一挑战在强调精湛笔法、风格传承及文化内涵的传统中国人物画中尤为明显。为应对这一问题,研究人员提出了PromptTCP,一种以领域知识为驱动的人机共创系统。通过整合编码六个艺术维度的领域知识图谱(TOBEST-SemKG)与用于层级概念组织的视觉“语义画布”(Semantic Canvas),PromptTCP将提示工程从高负荷的语言任务转变为概念编排与视觉反馈的共创过程。对12名参与者的混合方法研究表明,PromptTCP显著降低了用户挫败感和操作负担,同时提升了满意度。此外,生成的提示和图像在丰富性、文化相关性及艺术意境方面均优于基于文本的基线。研究结果为文化特定的AI生成内容(AIGC)应用提供了实证支持,并为专业领域共创系统设计提供了可迁移的方法论。
论文解读
随着生成式人工智能(GenAI)在创意实践中的迅速发展,文本到图像的生成模型(如Midjourney和Stable Diffusion)在风格多样性和生成效率上取得了突破。然而,当这些工具应用于具有深厚文化底蕴和独特审美范式的专业领域——如传统中国人物画时,暴露出一个根本性矛盾:创作者脑中的多维、动态且网络化的艺术意图与AI系统要求的线性、离散、精准的文本指令之间存在显著语义鸿沟。这种鸿沟导致创作者在提示工程过程中频繁依赖外部资源获取灵感和领域知识,并需自行将碎片化元素组织为连贯概念,形成反复试错的循环,严重扰乱创作流并增加认知负荷。目前研究主要采取两条路径:利用大型语言模型(LLM)扩展或优化提示,但缺乏专业领域深度知识;以及通过可视化界面或人机混合策略改善交互,但未能充分与专业创作的认知过程深度融合。针对上述问题,研究人员开发了PromptTCP系统,旨在通过知识驱动的可视化概念编排方法,将提示工程转变为协作共创过程。核心架构包括TOBEST-SemKG领域知识图谱(主题、对象、背景、情绪、风格、技法六维度)以及语义画布(Semantic Canvas),为高语义密度创作提供认知支架。研究在12名参与者的混合方法实验及案例研究中验证了系统性能,结果表明PromptTCP在文化相关性、艺术表达力、用户挫败感及认知负荷方面均优于基线工具。该研究发表于《Visual Informatics》。
在技术方法方面,研究人员主要采用以下策略:首先,利用Qwen-VL-Max多模态视觉语言模型实现参考图像的自动意图解析,将隐性艺术偏好转化为结构化的初始语义描述;其次,结合TOBEST-SemKG知识图谱和上下文感知的偏置随机游走算法,为用户提供实时、相关的艺术元素推荐;最后,通过语义画布界面支持层级概念组织,并使用微调的Qwen-plus模型自动生成符合中国画古典美学的描述文本,形成循环迭代的共创工作流。样本队列来源包括中国人物画艺术史著作中涵盖唐至清时期的282幅代表性画作。
研究结果显示:
**概念启动(Concept Inception)**:用户上传参考图像后,系统通过“意图解析器”自动生成结构化种子描述,有效解决创作冷启动问题(C1–C2),为后续创作提供高质量语义起点。
**交互共创(Interactive Co-Creation)**:在语义画布上,用户可组织概念关系、修辞结构及权重调整,实现R2(领域知识推荐)和R3(视觉概念编排)。AI作为知识伙伴,通过上下文感知算法检索TOBEST-SemKG中的艺术元素,提供灵感词云;用户作为创意总监进行概念收敛与重构,AI进一步通过“美学增强器(Aesthetic Enhancer)”生成高质量文本描述,降低认知负荷,强化创意表达。
**评估与迭代(Evaluation & Iteration)**:生成的图像与语义画布并列展示,形成清晰的输入–输出因果映射。用户可快速调整层级语义泡泡,实现低成本、透明的迭代,解决生成结果不可预测和盲目调试问题(C5–C6),形成高效创作循环(R4)。
**TOBEST-SemKG知识驱动架构**:研究团队基于282幅画作构建知识图谱,将艺术主题、对象、背景、情绪、风格和技法六维度结构化为1266个节点。上下文感知随机游走算法结合视觉特征向量,实现从模糊意图到具体概念元素的检索,支撑实时交互推荐。
**案例研究(Case Study)**:对比业余创作者和ChatGPT生成的提示及Midjourney生成的图像,PromptTCP在提示丰富性、准确性及文化相关性方面均优于基线。生成图像在细节呈现、风格实现及艺术意境上表现更佳,成功模拟中国画笔法和构图,传达传统文化情绪。
**用户研究(User Study)**:12名参与者(熟悉和非熟悉中国画的创作者)参与实验。调查显示,PromptTCP在激发创意、知识推荐、交互体验和图像生成输出方面均显著优于基线工具,有效降低认知负荷,提高用户满意度。
**讨论与结论**:PromptTCP系统通过知识驱动的概念编排与混合主动交互,成功弥合了创作者意图与AI生成指令之间的语义鸿沟。研究证实,结合领域知识图谱、视觉交互界面及AI美学增强模块的共创方法,能够显著提升高语义密度专业艺术创作的效率、准确性及文化表达力,为文化特定AIGC应用提供可迁移方法论。