20世纪80年代初,商业计算机辅助设计(CAD)技术的出现彻底改变了工程实践[1]。传统且耗时的“手工绘图”过程被二维(2D)计算机绘图所取代,后者简化了绘图任务。几年后,引入了使用虚拟三维(3D)模型的计算机辅助“建模”方法,使得设计信息的创建、文档化和交流更加快速和高效[2]。
从设计的角度来看,现代CAD系统几乎完全依赖于用户。构思和实现任务是设计师的职责。CAD系统当然可以帮助表示设计(例如3D模型),但不能参与建模过程。换句话说,设计师必须根据一系列要求做出所有建模决策并设计解决方案(例如特定的几何形状)。实际解决方案及其作为几何形状的实现方式完全取决于设计师的技能、知识和决策。传统的参数化CAD系统依赖于图形用户界面(GUI),允许设计师和工程师通过直接操作视觉元素和专用工具来创建和修改3D模型。
最近,基于编程的CAD工作流程因其灵活性、可重复性和精确性而受到关注——这些特性得到了流行CAD软件(如SolidWorks、AutoCAD和Inventor)中集成脚本语言或宏的支持[[3], [4], [5], [6]]。基于编程的CAD,也称为基于脚本的建模,涉及使用代码来定义和生成几何形状。
基于编程的方法对于需要程序生成或大规模自动化的任务非常有效。然而,脚本工作流程通常存在挑战,并且尤其在缺乏编程背景的设计师中未得到充分利用。构建高效的CAD脚本需要深入理解设计原则和编程语法,这导致了陡峭的学习曲线和生产力障碍[7,3,8,5]。此外,经验丰富的工程师可能会遇到由于重复调试、语法错误以及需要实时反馈而导致的效率低下问题,这些问题会妨碍快速迭代和精度要求高的任务,同时也难以用编程方式描述复杂的几何形状。
人工智能(AI)工具的最新突破,特别是大型语言模型(LLMs),通过解释用户通过多种输入(包括文本、语音和图像)自然表达的设计意图,为解决这些障碍提供了机会。将多模态LLMs整合到CAD工作流程中,可以将直观的人类输入与可执行的参数化模型连接起来,显著减少用户的工作量和错误[[9], [10], [11], [12]]。像ChatGPT这样的多模态LLMs已经展示了直接从自然语言指令生成CAD就绪的宏的潜力[[10], [11], [13], [14], [15]]。在这方面,生成式AI可以使CAD成为真正的计算机辅助“设计”工具,设计师和计算机以创造性方式协作,产生新颖的优化解决方案[16,17]。
本研究介绍了CADialogue,这是一个创新的多模态系统,通过文本、语音和图像输入促进参数化CAD模型的直观创建和细化。CADialogue利用多模态LLMs自动解释用户意图,并在CAD环境中实时生成可执行的宏。该系统不依赖于特定模型,可以无缝集成一个或多个LLM(例如,用于文本和图像理解的GPT-4.1),根据模型性能和用户需求确保适应性。此外,CADialogue还具有几何上下文感知功能,包括顶点、边、面和体的选择,以支持准确的特征放置。
CADialogue补充并增强了基于标准GUI的过程,而不是取代它们,通过大幅减少所需的时间和努力来简化参数化模型的创建。我们通过一系列结构化的建模活动评估了CADialogue在准确捕捉和转换工程设计意图为稳健的参数化模型方面的效率,这些活动包括几何创建、基于用户选择的特征编辑以及涉及文本和图像输入的多模态提示解释。研究结果突显了多模态LLM驱动的CAD系统在加速和简化参数化建模中的作用。
简而言之,本工作的四个主要贡献如下:
- •
我们提出了CADialogue,这是一个由多模态LLM驱动的对话式助手,可以通过自然语言、语音、图像输入和几何选择实现直观的参数化CAD建模。
- •
我们开发并验证了一个模块化的、与后端无关的框架,它将提示解释、细化逻辑以及CAD代码调试和执行分离开来,便于与不同的LLM集成并促进系统的可扩展性。
- •
我们在70个建模任务(来自一个经过重组和扩展的数据集,该数据集解决了歧义)和10个编辑任务中进行了设计和评估,系统地评估了助手在不同难度级别和交互模式下的性能。
- •
我们实现了一个缓存机制,大幅减少了重复提示的响应延迟,并积累了可重用的宏和决策路径,构建了一个轻量级的本地知识库,支持在不同设计会话中的一致和加速建模。