建筑文化遗产数据集在生成式人工智能中的可重复使用性和基准测试潜力:一项分析研究

时间:2026年1月19日
来源:Expert Systems with Applications

编辑推荐:

生成式AI在文化遗产建筑中的应用面临数据集不足、访问受限及地理失衡等问题。本研究系统评估了62个相关数据集,提出包含可访问性、地理覆盖、数据模态等维度的分类框架,揭示60%数据集无法直接获取,并指出多模态缺失、标注不完善等核心缺陷。建议加强区域代表性数据采集与标准化建设。

广告
   X   

作者:Manar Abu Talib、Iman Ibrahim、Manar Abusirdaneh
阿联酋沙迦大学计算机科学与信息学院,沙迦,邮政信箱27272

摘要

近年来,由于生成式人工智能(Generative AI)工具的重大进展,文化遗产建筑设计领域得到了显著发展。这些快速的发展需要具备代表性且多样化的文化遗产建筑数据集,以促进生成式AI模型的训练和评估过程。尽管需求不断增长,但目前仍缺乏一个标准化框架来评估这些公开数据集的完整性、质量和可用性。在本文中,我们对与文化遗产建筑设计相关的图像数据集进行了全面审查和分析。我们从公共可用性、地理覆盖范围、数据类型、注释细节、许可和文档质量等关键标准对数据集进行了比较,同时指出了常见的局限性和差距。我们提出了一种独特的分类法来组织和分析现有的数据集。研究结果表明,公开可用的数据集与实际需求之间存在显著差距:近60%的数据集无法直接访问。此外,我们还确定了数据集中代表性不足的地区,以指导为这些地区创建更具代表性的数据集的工作。此外,我们还指出了现有数据集在生成式AI应用方面的主要局限性,如缺乏多模态数据,以及类别不平衡问题。为了说明这些局限性,我们以其中一个被审查的数据集为例,评估了其当前缺陷对生成模型性能和图像质量的影响。总体而言,本研究不仅考察了现有数据集的现状,还指出了改进方向和未来发展的潜力,以更好地支持该领域的生成式AI应用。

引言

建筑遗产作为有形文化遗产的一部分,主要表现为对某一地区具有历史、文化或技术意义的纪念碑、建筑群和遗址[29]。它代表了一个地区历史和文化身份的重要部分,也是国家内部高度艺术性和智力统一的体现[125]。因此,需要不断开发创新的保护策略,以确保建筑遗产能够传递给后代,同时保持其独特性。
最近引入文化遗产建筑设计领域的最强大工具之一是生成式人工智能(Generative Artificial Intelligence,简称GenAI)[66],它指的是能够生成文本、图像、音乐、编程代码等复杂和创造性输出的人工智能系统[104]。最近广泛用于建筑设计应用的一些系统示例包括Midjourney、Dall-E和Stable Diffusion等[2022, 2023, 2021]。
这些工具为建筑师和设计师提供了更创造性、更高效地将文化元素融入现代设计的方法[50]。许多文献讨论了生成式AI模型的能力,包括历史建筑的保护[2025, 2024]、历史建筑的建筑工程[32]、建筑结构的图像修复[2024]、数字故事讲述[36]、生成3D模型用于保护或教育[21],甚至通过生成创意内容来协助城市更新项目中的文化复兴[110]。
生成式AI模型的性能通常通过专门设计的数据集进行评估,这些数据集能够挑战模型在其预期任务中的能力[99]。已经创建并使用了多个大规模数据集来训练和基准测试不同的生成式AI模型,例如文本到图像(Text-to-Image,简称TTI)[16]和图像到图像(Image-to-Image,简称ITI)[99]任务。然而,在文化遗产领域,目前还缺乏适合生成式AI应用的数据集,这些数据集应具备适当的注释、良好的质量和多样性,并配有结构化的元数据。由于数据集的稀缺,文化遗产领域普遍存在重复使用相同数据集的情况,研究人员经常带着新的问题和解释框架回到相同的历史来源[39]。
在这项工作中,我们旨在通过分析现有图像数据集并评估它们在生成式AI应用中的适用性,来满足这一日益增长的需求。尽管人们对将生成式AI应用于文化遗产建筑表现出浓厚的兴趣,但目前仍缺乏关于可用数据集的清晰概览,包括它们的内容及其不足之处。据我们所知,还没有研究汇总或比较过现有的文化遗产建筑设计图像数据集。本研究首次对现有的文化遗产建筑设计数据集进行了全面审查和分析,重点关注它们在生成式AI应用中的可用性。我们收集并分析了与各种计算机视觉应用相关的图像数据集。本文的主要贡献如下:
  • 提出了一种用于收集、分类和评估文化遗产建筑设计数据集的结构化分类法。
  • 对现有的文化遗产建筑设计图像数据集进行了全面审查,强调了它们的特点和分布情况。
  • 通过多标准评估来评估数据集在生成式AI中的应用适用性,包括地理代表性、数据类型、注释丰富度、许可开放性和文档质量。
  • 揭示了阻碍生成式AI发展的关键局限性,如缺乏多模态输入、类别不平衡和数据集可访问性差等问题。
  • 提供了可行的建议,并为这一新兴领域创建更具包容性、更易访问且适合AI的数据集提供了前瞻性视角。
本文的结构如下:第2节讨论了与本研究相关的工作;第3节介绍了我们提出的分类法;第4节解释了我们采用的方法论;第5节概述了收集的数据集;第6节介绍了我们对数据集应用的分析;第7节对审查的数据集进行了定性分析;第8节进行了定量分析;第9节指出了现有数据集的局限性;第10节提出了我们的未来建议;最后,第11节总结了本文。

节选内容

文化遗产中的生成式AI

最近的调查显示,AI在文化遗产领域得到了广泛应用,但大多数研究仍集中在分析性任务上,而非生成性方法。文献计量分析[65]证实了这一趋势,表明该领域目前主要依赖于数据采集和效率技术,强调数字建模和监控,而非内容生成。在视觉检查的具体领域,计算机视觉方法(如YOLO)得到了广泛使用

分类法

本研究提出了一种分类法(图1),根据数据集的可访问性、地理位置和范围对其进行分类。公开可用的数据集进一步按应用(分类、检索、保护、重建)、注释类型(组件、风格、实例、未标记)以及局限性(不平衡、质量、噪声、文档)进行细分。后续章节将详细讨论每个方面。最后,利用这一分类标准,我们比较了现有的文化遗产数据集

搜索策略与选择标准

搜索旨在识别公开可用的数据集和发表的学术论文,这些论文介绍、描述或使用了与文化遗产建筑设计相关的数据集。我们使用Scopus作为学术论文的主要数据库,同时结合了开源平台(如GitHub、Kaggle、Hugging Face、Papers with Code和Google Dataset Search)进行搜索。搜索过程中使用了与建筑、文化遗产和数据集类型相关的关键词组合

识别出的数据集概述

在本节中,我们总结了搜索过程中发现的数据集。共找到了62个相关数据集。尽管AI和计算机视觉在文化遗产建筑设计领域的应用日益增多,但我们的分析显示数据集的可访问性存在局限性。在所有收集的数据集中,只有23个(37%)是公开可用的,如图5所示。大多数数据集无法直接访问

数据集应用

为了评估收集的数据集在生成式AI应用中的适用性,我们首先讨论了它们的初始用途,这直接影响了数据集的创建方式。我们将数据集分为四个主要应用类别:分类、生成与重建、分析与保护以及检索与匹配。然后,根据图3中呈现的属性讨论每个数据集。

数据集定性分析

为了对收集的文化遗产建筑设计数据集进行全面比较,我们提出了一个涵盖三个主要领域的结构化评估框架:(1)多模态性;(2)注释细节;(3)生成式AI的局限性;(4)许可情况,如图7所示。数据类型部分指明了每个数据集包含的数据类型,即图像、视频、文本和3D模型。图像描述(是/否)表示每张图像是否附带描述性信息

数据集定量分析

为了验证这些数据集在生成式AI环境中的适用性,我们使用Stable Diffusion(SD)v1.5模型[98]并通过低秩适应(LoRA)[47]进行了微调,以生成轻量级的、针对特定风格的生成器。与完全微调不同,后者会更新所有模型参数,可能导致在小数据集上出现灾难性遗忘或过拟合,而LoRA则冻结预训练的模型权重,并将可训练的秩分解矩阵注入变换器层。
用于

数据集的局限性

通过审查数据集的技术文档、元数据规格和原始出版物,我们发现了阻碍这些数据集立即应用于生成式AI的明显局限性。这些局限性通常由数据集 curators 自己指出,或在他们的总结中体现,主要分为四类:类别不平衡和偏见、数据质量和一致性问题、注释问题以及元数据和文档问题

未来建议

基于我们的分析结果,我们提出了以下针对建筑文化遗产数据集管理的实用建议。
分析显示存在明显的地理偏见,例如阿拉伯半岛和波斯湾地区的代表性严重不足。这种不平衡直接影响了生成模型的性能,导致本土建筑风格的边缘化,而主导建筑风格得到优先考虑。未来的数据集管理应

结论

在这项研究中,我们对公开可用的文化遗产建筑设计数据集进行了深入的审查和分析,特别关注它们在生成式AI应用中的适用性。我们收集并分析了各种用于不同建筑遗产相关计算机视觉应用的图像数据集。每个数据集都根据特定标准进行了评估,例如地理覆盖范围和数据类型

CRediT作者贡献声明

Manar Abu Talib:概念化、监督、审阅和编辑 Iman Ibrahim:概念化、监督、审阅和编辑 Manar Abusirdaneh:方法论、软件、数据管理、初稿撰写、可视化、调查、验证、审阅和编辑

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有