具身智能是人工智能(AI)领域的长期愿景,逐步探索AI理解和与物理世界互动的能力[1],超越了网络空间。机器人作为AI在现实世界中的关键体现,负责在动态环境中执行类似人类的复杂操作。虽然通过使用集成感知、规划和控制的模块化流程,机器人已经能够执行诸如组装宜家椅子[2]等复杂任务,但它们的整体智能水平仍然有限,远未达到AI代理的水平。
基础模型的最新进展为创建能够主动协调网络空间和物理世界的机器人AI代理提供了有希望的解决方案[3]。基础模型是在庞大且多样化的数据集上训练的大型AI模型,拥有超过十亿个参数,可作为不同领域(如语言和视觉[4])中各种下游任务的通用基础。例如,GPT系列[5]和DeepSeek系列[6]等模型拥有广泛的知识基础,并可以针对特定应用进行微调。这种在机器人技术中的变革能力强化了具身智能的概念[7]。例如,RT-1[8]和RT-2[9]等算法的引入通过更紧密地结合感知和动作,改变了机器人技能的设计范式,超越了传统的模块化流程。在这种背景下,智能机器人具备了更高的移动性、自主性和灵活性,成为能够与环境灵巧互动的具身AI代理。
这项技术正在重新定义各个领域的机器人应用。例如,吴等人[10]利用大型语言模型(LLMs)的总结能力,概括用户对个性化家务清洁任务的偏好,使机器人能够通过拾取和放置物品来整理房间。Driess等人[11]提出了一个具身智能模型PaLM-E,该模型将现实世界的传感器模态整合到语言模型中,以支持各种机器人任务,包括序列操控规划和视觉问答。同时,Mandi等人[12]利用预训练的LLMs进行高级通信和多机器人协作中的低级路径规划,尽管任务有所不同,但仍取得了高成功率。此外,Bu等人[13]开发了一个开源的大规模操控平台,该平台包含超过100万个轨迹的数据集,用于双臂人形机器人(AgiBot G1)的精细技能学习。
毫无疑问,这些探索促进了机器人在复杂、真实世界、灵巧和长期任务中的可扩展和通用智能[14]。虽然机器人操控本质上涉及在复杂环境约束下重新配置物体[15],但在基础模型时代,基于具身智能的机器人尚未充分发挥其潜力。确定机器人操作的下一步优先事项对于进一步发展至关重要。
智能制造[16]代表了一种变革性范式,提高了工业系统的效率、生产力和灵活性,其中机器人成为生产的核心要素。除了基本的物体操控之外,现代制造过程还要求机器人在操作过程中考虑力、形态甚至材料属性[17]。这需要多物理场建模能力,这与机器人所具备的智能相辅相成——我们称之为基于物理知识的具身智能。这种智能不仅使机器人能够与物理环境互动,还能使其行为符合基本物理定律,从而更准确地反映现实世界。例如,Genesis[18]的发布是一个为通用机器人技术、具身智能和物理AI应用设计的综合性物理仿真平台,强调了物理定律在机器人任务中的作用,引起了广泛关注。因此,能够在制造环境中智能、精确和灵活地运行的机器人值得进一步探索和发展。
随着越来越多的人认为基于物理知识的具身智能可以改变机器人在制造领域的能力,制定其发展路线图变得至关重要。关键问题包括:(1)从基础模型中衍生出的具身智能具有哪些特征?(2)机器人如何获取多方面的物理相关信息并利用它们来增强智能?(3)基于物理知识的具身智能可以实现哪些目标,它将在哪些方面影响制造业?一些综述已经讨论了基于物理知识的机器学习[20]、[21]、机器人基础模型[22]、[23]以及基于学习的机器人操控[24]、[25],这些综述提供了有关物理原理如何启发机器学习架构、基础模型如何增强感知、规划和控制,以及如何实现适应性和仿真到现实转移机制的宝贵见解。然而,尚未提出一个全面的定义和概念框架,以推进基于物理知识的具身智能的发展,并将其影响扩展到现实世界的物理任务和智能制造。本文旨在填补这一空白,通过提出一个追踪机器人智能发展的框架,并为制造业应用中的机器人任务提出前瞻性视角。我们希望这一新兴范式能够激发大量讨论、辩论和进一步的发展,以实现其在现实世界中的应用。
本文的其余部分结构如下:第2节概述了机器人智能的发展和综述过程。第3节探讨了基于基础模型的具身智能。第4节介绍了基于物理知识的具身智能的概念及其核心组成部分。第5节展示了这一范式如何推动智能制造中机器人操控的应用。第6节讨论了未来方向,第7节得出了结论。