AECBench：一个用于评估AEC领域大型语言模型知识表现的分层基准测试工具

时间：2026年1月18日

来源：ADVANCED ENGINEERING INFORMATICS

编辑推荐：

大型语言模型（LLMs）在建筑工程领域应用潜力显著，但需评估其可靠性。本研究构建AECBench基准，包含知识记忆、理解、推理、计算与应用五层次框架，定义23项真实场景评估任务，并开发"LLM作为法官"的自动化评估方法。测试九大模型发现其在复杂推理、计算及专业文档生成方面存在明显缺陷，为安全关键工程中的LLM部署提供评估基础。

陈亮|黄兆琪|王浩芬|柴富|于春英|魏环环|刘正杰|李彦鹏|王洪军|罗瑞峰|赵先中

同济大学土木工程学院，上海市四平路1239号，200092，中国

摘要

大型语言模型（LLMs）作为一种新型信息技术，在建筑、工程和施工（AEC）领域的应用日益广泛。它们已经显示出在建筑生命周期中简化流程的潜力。然而，LLMs在该专业且安全至关重要的领域的鲁棒性和可靠性仍有待评估。为了解决这一挑战，本文建立了AECBench，这是一个旨在量化当前LLMs在AEC领域优势和局限性的综合基准测试。该基准测试包含一个五层次的、以认知为导向的评估框架（即知识记忆、知识理解、知识推理、知识计算和知识应用）。基于该框架，定义了23个具有代表性的评估任务。这些任务源自真实的AEC实践，范围从代码检索到专业文档生成。随后，构建了一个包含4800个问题的数据集，涵盖了多种格式，包括开放式问题，主要由工程师设计并通过两轮专家评审进行验证。此外，引入了“LLM作为裁判”的方法，为利用专家制定的评分标准评估复杂的长篇回答提供了一种可扩展且一致的方法。通过对九个LLMs的评估，发现其在五个认知层次上的表现存在明显下降。尽管在知识记忆和理解层次上表现出熟练度，但这些模型在解释建筑规范中的知识、执行复杂推理和计算以及生成特定领域文档方面存在显著的性能缺陷。因此，本研究为未来将LLMs稳健可靠地整合到安全关键工程实践中奠定了基础。

引言

建筑、工程和施工（AEC）行业以其固有的复杂性和高度专业化的安全关键特性而著称。作为土木工程及相关领域的跨学科融合，该领域要求在整个项目生命周期内具备广泛的知识和操作能力[1]。图1展示了这种综合范式中所需的多方面知识，包括11个关键领域以及从这些核心领域辐射出的众多专业主题。这些领域之间高度相关，共同促进了项目的成功完成。例如，结构设计不仅受力学原理的支配，还必须结合建筑美学、材料特性、施工技术、消防安全、能源效率和环境法规等因素。这种深度的相互关联性对工程实践的准确性和可靠性提出了严格的要求。

虽然大型语言模型（LLMs）通过利用庞大的跨领域知识库[2]、[3]、[4]提供了增强这些知识密集型任务的潜力，但在如此高风险的环境中部署它们需要严格的验证。因此，建立标准化和特定领域的评估基准对于确保它们在这些情境中的可靠性和熟练度至关重要[5]、[6]、[7]、[8]。然而，目前还缺乏一个完全符合AEC行业复杂认知和操作需求的综合评估框架。

为了解决这一关键差距，本文提出了AECBench，这是一个专门为评估LLMs在真实AEC场景中的表现而设计的中文基准测试。主要创新点如下：

分层认知框架：引入了一个专为AEC领域设计的分层认知框架。该框架旨在反映AEC任务中逐步增加的认知需求，从基本的知识记忆到复杂的应用。框架分为五个不同的层次，其中特别包括了知识推理和知识计算这两个关键技能。为了更细致地评估实际能力，知识应用层次进一步细分为三个子层次：分析、评估和创造。这种分层设计使得能够更全面和真实地评估LLMs的能力，从而识别其在不同认知层次上的优势和劣势。
高质量基准数据集：构建了一个包含4800个精心设计或策划的问题的高质量基准数据集，涵盖了23个评估任务，具有三个核心优势。首先，评估任务由领域工程师策划，反映了AEC领域的真实场景，问题来自建筑规范、内部专有文件和执照考试。其次，数据集提供了多种问题格式，包括多项选择题、分类题、提取题和开放式生成题，旨在真实反映真实AEC场景和专业工作流程的复杂性和动态性。第三，每个问题都经过了来自领先AEC企业的顶级专业人士的多轮数据审查，确保了数据集的高清晰度和准确性。
自动化评估流程和开源发布：引入了一种针对开放式长篇回答的自动化评估流程。它采用“LLM作为裁判”的方法，根据领域专家制定的评分标准对文档进行评分。这种方法显著提高了评估的可扩展性和速度，同时确保评估基于专家知识。整个AECBench，包括代码和数据集，将作为开源资源向社区发布。

章节片段

LLM在AEC生命周期中的整合

最近的研究表明，LLMs在AEC生命周期中的整合程度日益加深，从简单的查询发展到复杂的、自主的工作流程。在设计阶段，应用范围从自动生成建筑能源模型（BEMs）[9]到与建筑信息模型（BIMs）[10]的对话交互，以及将文本代码转换为可执行的规则以进行自动化合规性检查[11]、[12]。在结构工程中，LLMs发挥着重要作用

分层评估框架

本节旨在通过反映AEC领域独特的知识、应用场景和认知挑战，全面有效地评估大型语言模型的能力。与传统的按学科或难度对任务进行分类的方法[7]、[21]、[22]不同，本文主张为复杂的AEC领域采用更细致的评估框架。理由有二：（i）性能更多地取决于任务的认知

数据集构建

基于分层认知框架中考虑的评估任务，构建了一个包含4800个问题的自定义数据集。数据集的建立分为三个步骤：数据收集、数据清洗和数据审查（见图6）。数据审查过程采用了两轮审查机制（即每个项目首先由中级工程师审查，然后由专家确认），以确保获得高质量的LLM评估数据集。

模型

选择了九个广泛使用的LLMs，包括开源和专有模型，其中QwQ-32B、DeepSeek-R1和GPT o3-mini具有增强推理能力的专门优化。所选模型及其信息见表1。

实验设置

评估实验在OpenCompass平台上进行[46]，该平台通过其模块化架构实现了从模型输出中自动提取答案和标准化计算基准指标的功能。

LLM作为裁判方法的系统偏差

图11(a)展示了LLM预测分数与人类专家分数的散点图，其中每个点的大小与其出现频率成正比。图中的y=x线表示模型与人类完全一致的基准情况。对于每个模型，都拟合了一条平滑曲线来说明其性能趋势。虽然所有模型都与人类评估显示出总体上的正相关，如它们单调上升的曲线所示，但DeepSeek-R1的表现

结论

为了指导大型语言模型（LLMs）在建筑、工程和施工（AEC）行业中增强复杂、知识密集型任务的负责任整合和未来发展，本文建立了一个基础评估基准AECBench，以评估当前LLMs在这些情境中的优势和局限性。一个五层次的分层框架（知识记忆、知识理解、知识推理、知识计算等）

CRediT作者贡献声明

陈亮：写作——审阅与编辑、撰写初稿、可视化、软件、方法论、调查、形式分析。黄兆琪：写作——审阅与编辑、方法论、形式分析。王浩芬：写作——审阅与编辑、概念化。柴富：验证、软件、调查。于春英：可视化。魏环环：软件、调查、数据整理。刘正杰：数据整理。李彦鹏：资源、数据整理。王洪军：资源、资金支持