建筑、工程和施工(AEC)行业以其固有的复杂性和高度专业化的安全关键特性而著称。作为土木工程及相关领域的跨学科融合,该领域要求在整个项目生命周期内具备广泛的知识和操作能力[1]。图1展示了这种综合范式中所需的多方面知识,包括11个关键领域以及从这些核心领域辐射出的众多专业主题。这些领域之间高度相关,共同促进了项目的成功完成。例如,结构设计不仅受力学原理的支配,还必须结合建筑美学、材料特性、施工技术、消防安全、能源效率和环境法规等因素。这种深度的相互关联性对工程实践的准确性和可靠性提出了严格的要求。
虽然大型语言模型(LLMs)通过利用庞大的跨领域知识库[2]、[3]、[4]提供了增强这些知识密集型任务的潜力,但在如此高风险的环境中部署它们需要严格的验证。因此,建立标准化和特定领域的评估基准对于确保它们在这些情境中的可靠性和熟练度至关重要[5]、[6]、[7]、[8]。然而,目前还缺乏一个完全符合AEC行业复杂认知和操作需求的综合评估框架。
为了解决这一关键差距,本文提出了AECBench,这是一个专门为评估LLMs在真实AEC场景中的表现而设计的中文基准测试。主要创新点如下:
分层认知框架:引入了一个专为AEC领域设计的分层认知框架。该框架旨在反映AEC任务中逐步增加的认知需求,从基本的知识记忆到复杂的应用。框架分为五个不同的层次,其中特别包括了知识推理和知识计算这两个关键技能。为了更细致地评估实际能力,知识应用层次进一步细分为三个子层次:分析、评估和创造。这种分层设计使得能够更全面和真实地评估LLMs的能力,从而识别其在不同认知层次上的优势和劣势。
高质量基准数据集:构建了一个包含4800个精心设计或策划的问题的高质量基准数据集,涵盖了23个评估任务,具有三个核心优势。首先,评估任务由领域工程师策划,反映了AEC领域的真实场景,问题来自建筑规范、内部专有文件和执照考试。其次,数据集提供了多种问题格式,包括多项选择题、分类题、提取题和开放式生成题,旨在真实反映真实AEC场景和专业工作流程的复杂性和动态性。第三,每个问题都经过了来自领先AEC企业的顶级专业人士的多轮数据审查,确保了数据集的高清晰度和准确性。
自动化评估流程和开源发布:引入了一种针对开放式长篇回答的自动化评估流程。它采用“LLM作为裁判”的方法,根据领域专家制定的评分标准对文档进行评分。这种方法显著提高了评估的可扩展性和速度,同时确保评估基于专家知识。整个AECBench,包括代码和数据集,将作为开源资源向社区发布。