CADialogue:一款由多模态大语言模型(LLM)驱动的对话式辅助工具,用于实现直观的参数化CAD建模

时间:2026年1月30日
来源:Computer-Aided Design

编辑推荐:

参数化CAD建模中基于多模态LLM的会话式辅助工具研究。提出CADdialogue系统,集成文本、语音、图像和几何选择输入,通过模块化架构解耦提示处理、优化逻辑和执行,支持跨LLM无缝替换。实验表明在70个建模和10个编辑任务中成功率95.71%,文本输入基准91.43%,图像输入提升复杂任务成功率但增加处理时间。缓存机制实现85.71%速度提升。证实通用LLM无需领域微调即可有效支持CAD设计流程。

广告
   X   

Jiwei Zhou | Jorge D. Camba | Pedro Company
Heliponix, LLC, Evansville, IN 47713, USA

摘要

生成式人工智能(AI)的最新进展——尤其是大型语言模型(LLMs)——通过文本、图像和基于上下文的选择提供了新的CAD交互范式,实现了自然和直观的输入。在这项研究中,我们介绍了CADialogue,这是一个由多模态LLM驱动的对话式助手,可以通过自然语言、语音、图像和基于选择的几何交互来实现直观的参数化CAD建模。CADialogue基于一个通用的大型语言模型,将用户提示转换为可执行代码,以支持几何创建和基于上下文的编辑。该系统采用了模块化架构,将提示处理、细化逻辑和执行分离开来——允许随着LLMs的发展而无缝更换模型——并包括缓存功能,以便快速重用经过验证的设计。我们在70个建模任务和10个编辑任务上评估了该系统的性能,评估标准包括准确性、细化行为和执行时间。结果显示,总体成功率为95.71%,其中仅使用文本输入时的基线成功率为91.43%,而结合文本和图像输入后,通过自我纠正和人工干预进一步提高了成功率。比较分析表明,图像输入在处理语义复杂的提示时提高了成功率,但引入了额外的处理时间。此外,缓存机制在重复执行时提高了85.71%以上的速度。这些发现突显了通用LLMs在无需领域特定微调的情况下实现可访问、迭代和精确的CAD建模工作流的潜力。CADialogue的源代码和数据集可在以下链接获取:https://github.com/Hiram31/CADialogue

引言

20世纪80年代初,商业计算机辅助设计(CAD)技术的出现彻底改变了工程实践[1]。传统且耗时的“手工绘图”过程被二维(2D)计算机绘图所取代,后者简化了绘图任务。几年后,引入了使用虚拟三维(3D)模型的计算机辅助“建模”方法,使得设计信息的创建、文档化和交流更加快速和高效[2]。
从设计的角度来看,现代CAD系统几乎完全依赖于用户。构思和实现任务是设计师的职责。CAD系统当然可以帮助表示设计(例如3D模型),但不能参与建模过程。换句话说,设计师必须根据一系列要求做出所有建模决策并设计解决方案(例如特定的几何形状)。实际解决方案及其作为几何形状的实现方式完全取决于设计师的技能、知识和决策。传统的参数化CAD系统依赖于图形用户界面(GUI),允许设计师和工程师通过直接操作视觉元素和专用工具来创建和修改3D模型。
最近,基于编程的CAD工作流程因其灵活性、可重复性和精确性而受到关注——这些特性得到了流行CAD软件(如SolidWorks、AutoCAD和Inventor)中集成脚本语言或宏的支持[[3], [4], [5], [6]]。基于编程的CAD,也称为基于脚本的建模,涉及使用代码来定义和生成几何形状。
基于编程的方法对于需要程序生成或大规模自动化的任务非常有效。然而,脚本工作流程通常存在挑战,并且尤其在缺乏编程背景的设计师中未得到充分利用。构建高效的CAD脚本需要深入理解设计原则和编程语法,这导致了陡峭的学习曲线和生产力障碍[7,3,8,5]。此外,经验丰富的工程师可能会遇到由于重复调试、语法错误以及需要实时反馈而导致的效率低下问题,这些问题会妨碍快速迭代和精度要求高的任务,同时也难以用编程方式描述复杂的几何形状。
人工智能(AI)工具的最新突破,特别是大型语言模型(LLMs),通过解释用户通过多种输入(包括文本、语音和图像)自然表达的设计意图,为解决这些障碍提供了机会。将多模态LLMs整合到CAD工作流程中,可以将直观的人类输入与可执行的参数化模型连接起来,显著减少用户的工作量和错误[[9], [10], [11], [12]]。像ChatGPT这样的多模态LLMs已经展示了直接从自然语言指令生成CAD就绪的宏的潜力[[10], [11], [13], [14], [15]]。在这方面,生成式AI可以使CAD成为真正的计算机辅助“设计”工具,设计师和计算机以创造性方式协作,产生新颖的优化解决方案[16,17]。
本研究介绍了CADialogue,这是一个创新的多模态系统,通过文本、语音和图像输入促进参数化CAD模型的直观创建和细化。CADialogue利用多模态LLMs自动解释用户意图,并在CAD环境中实时生成可执行的宏。该系统不依赖于特定模型,可以无缝集成一个或多个LLM(例如,用于文本和图像理解的GPT-4.1),根据模型性能和用户需求确保适应性。此外,CADialogue还具有几何上下文感知功能,包括顶点、边、面和体的选择,以支持准确的特征放置。
CADialogue补充并增强了基于标准GUI的过程,而不是取代它们,通过大幅减少所需的时间和努力来简化参数化模型的创建。我们通过一系列结构化的建模活动评估了CADialogue在准确捕捉和转换工程设计意图为稳健的参数化模型方面的效率,这些活动包括几何创建、基于用户选择的特征编辑以及涉及文本和图像输入的多模态提示解释。研究结果突显了多模态LLM驱动的CAD系统在加速和简化参数化建模中的作用。
简而言之,本工作的四个主要贡献如下:
  • 我们提出了CADialogue,这是一个由多模态LLM驱动的对话式助手,可以通过自然语言、语音、图像输入和几何选择实现直观的参数化CAD建模。
  • 我们开发并验证了一个模块化的、与后端无关的框架,它将提示解释、细化逻辑以及CAD代码调试和执行分离开来,便于与不同的LLM集成并促进系统的可扩展性。
  • 我们在70个建模任务(来自一个经过重组和扩展的数据集,该数据集解决了歧义)和10个编辑任务中进行了设计和评估,系统地评估了助手在不同难度级别和交互模式下的性能。
  • 我们实现了一个缓存机制,大幅减少了重复提示的响应延迟,并积累了可重用的宏和决策路径,构建了一个轻量级的本地知识库,支持在不同设计会话中的一致和加速建模。

部分摘录

参数化CAD建模技术

现代CAD系统通常配备直观的GUI,使用户能够通过各种工具、菜单和其他视觉元素与3D模型进行交互。用户通过交互机制和鼠标驱动的操作直接操纵草图(包括尺寸和其他约束)、基准点和特征,逐步构建和修改模型的几何形状[18]。根据零件的复杂性,手动创建3D模型需要空间视觉能力和高级建模技能。

方法论

本节概述了开发CADDialogue的方法论,这是一个旨在利用多模态LLMs增强直观参数化CAD建模的多模态对话系统。我们首先介绍了整个系统架构,然后详细讨论了具体组件。

评估方法和实验设计

本节概述了评估CADDialogue的方法论和实验设计。评估的目的不是单独测试底层语言模型,而是全面评估系统作为人机协作工具的性能。我们的重点在于了解CADDialogue如何通过嵌入在真实世界CAD环境中的自然语言和视觉输入支持灵活、直观的交互和稳健的参数化模型生成。

讨论与结论

结果表明,当通用LLM与适当的提示设计和系统集成相结合时,无需领域特定微调即可可靠地执行各种参数化CAD任务。CADDialogue有效地解释了自然语言描述、上下文选择输入和参考图像,在创建和编辑工作流中均取得了高成功率。在所有70个任务中,系统的总体成功率为95.71%。

CRediT作者贡献声明

Jiwei Zhou:撰写——原始草稿、软件、方法论、概念化。Jorge D. Camba:撰写——审阅与编辑、监督、资源、方法论、概念化。Pedro Company:撰写——审阅与编辑、资源。

生物通微信公众号
微信
新浪微博


生物通 版权所有