节选内容
文化遗产中的生成式AI
最近的调查显示,AI在文化遗产领域得到了广泛应用,但大多数研究仍集中在分析性任务上,而非生成性方法。文献计量分析[65]证实了这一趋势,表明该领域目前主要依赖于数据采集和效率技术,强调数字建模和监控,而非内容生成。在视觉检查的具体领域,计算机视觉方法(如YOLO)得到了广泛使用
分类法
本研究提出了一种分类法(图1),根据数据集的可访问性、地理位置和范围对其进行分类。公开可用的数据集进一步按应用(分类、检索、保护、重建)、注释类型(组件、风格、实例、未标记)以及局限性(不平衡、质量、噪声、文档)进行细分。后续章节将详细讨论每个方面。最后,利用这一分类标准,我们比较了现有的文化遗产数据集
搜索策略与选择标准
搜索旨在识别公开可用的数据集和发表的学术论文,这些论文介绍、描述或使用了与文化遗产建筑设计相关的数据集。我们使用Scopus作为学术论文的主要数据库,同时结合了开源平台(如GitHub、Kaggle、Hugging Face、Papers with Code和Google Dataset Search)进行搜索。搜索过程中使用了与建筑、文化遗产和数据集类型相关的关键词组合
识别出的数据集概述
在本节中,我们总结了搜索过程中发现的数据集。共找到了62个相关数据集。尽管AI和计算机视觉在文化遗产建筑设计领域的应用日益增多,但我们的分析显示数据集的可访问性存在局限性。在所有收集的数据集中,只有23个(37%)是公开可用的,如图5所示。大多数数据集无法直接访问
数据集应用
为了评估收集的数据集在生成式AI应用中的适用性,我们首先讨论了它们的初始用途,这直接影响了数据集的创建方式。我们将数据集分为四个主要应用类别:分类、生成与重建、分析与保护以及检索与匹配。然后,根据图3中呈现的属性讨论每个数据集。
数据集定性分析
为了对收集的文化遗产建筑设计数据集进行全面比较,我们提出了一个涵盖三个主要领域的结构化评估框架:(1)多模态性;(2)注释细节;(3)生成式AI的局限性;(4)许可情况,如图7所示。数据类型部分指明了每个数据集包含的数据类型,即图像、视频、文本和3D模型。图像描述(是/否)表示每张图像是否附带描述性信息
数据集定量分析
为了验证这些数据集在生成式AI环境中的适用性,我们使用Stable Diffusion(SD)v1.5模型[98]并通过低秩适应(LoRA)[47]进行了微调,以生成轻量级的、针对特定风格的生成器。与完全微调不同,后者会更新所有模型参数,可能导致在小数据集上出现灾难性遗忘或过拟合,而LoRA则冻结预训练的模型权重,并将可训练的秩分解矩阵注入变换器层。
用于
数据集的局限性
通过审查数据集的技术文档、元数据规格和原始出版物,我们发现了阻碍这些数据集立即应用于生成式AI的明显局限性。这些局限性通常由数据集 curators 自己指出,或在他们的总结中体现,主要分为四类:类别不平衡和偏见、数据质量和一致性问题、注释问题以及元数据和文档问题
未来建议
基于我们的分析结果,我们提出了以下针对建筑文化遗产数据集管理的实用建议。
分析显示存在明显的地理偏见,例如阿拉伯半岛和波斯湾地区的代表性严重不足。这种不平衡直接影响了生成模型的性能,导致本土建筑风格的边缘化,而主导建筑风格得到优先考虑。未来的数据集管理应
结论
在这项研究中,我们对公开可用的文化遗产建筑设计数据集进行了深入的审查和分析,特别关注它们在生成式AI应用中的适用性。我们收集并分析了各种用于不同建筑遗产相关计算机视觉应用的图像数据集。每个数据集都根据特定标准进行了评估,例如地理覆盖范围和数据类型
CRediT作者贡献声明
Manar Abu Talib:概念化、监督、审阅和编辑
Iman Ibrahim:概念化、监督、审阅和编辑
Manar Abusirdaneh:方法论、软件、数据管理、初稿撰写、可视化、调查、验证、审阅和编辑
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。