工业机器人能够在非结构化生产环境中自主执行长期任务,这是制造自动化领域的一个关键突破。任务和运动规划(TAMP)是一种有前景的方法,因为它能够有效地整合低级几何信息来指导机器人完成复杂任务[1],[2]。尽管TAMP可以生成包含足够几何信息的动作序列,但在确保这些动作在现实世界环境中成功执行方面仍存在重大挑战,特别是在偏离封闭世界假设(CWA)的情景中[3]。
传统的基于控制的任务规划方法在执行过程中结合了实时环境反馈,从而在规划和执行之间形成了闭环。当由于异常或动态变化导致失败时,这些在线规划器会重新规划或采取纠正措施[4],[5],[6],[7],[8]。通常,这些方法通过手动预定义的恢复策略或启发式规则来处理异常情况。然而,设置恢复策略需要领域专家设计特定问题的规则,而这些规则难以泛化。此外,某些任务(如寻找丢失的物体)需要代理的主动探索,而这些任务无法通过启发式规划器轻易解决。此外,许多在线规划器侧重于规划过程,并假设异常检测是理想的,依赖于来自模拟场景的准确传感器数据或完整的视觉定位覆盖[5],[9]。在实践中,某些异常情况要求机器人完全探索其约束空间以提供有意义的反馈。例如,假设机器人的任务是在桌子上抓取一个物体,但最初的目标区域没有检测到该物体。这种类型的异常在动态环境中很常见。在这种情况下,机器人可能需要探索桌子的其他区域来定位物体,如果找不到物体,则可以提供更准确的异常反馈,即“目标物体不在桌子上”。机器人可以利用这种反馈相应地调整其策略。
当检测到异常信息时,如果规划器具备类似人类的逻辑推理能力,其有效性可以显著提高。这使得它能够处理各种任务中的潜在异常,从而扩展其在处理意外情况时的适用性和鲁棒性。LLM在没有额外参数微调的情况下,在任务规划中展示了令人印象深刻的逻辑推理能力[10],[11]。LLM也被应用于TAMP任务中,在提供适当的上下文提示时生成连续的几何参数[12]。然而,对于更复杂的规划问题(如长期TAMP任务),LLM仍然不足以完全替代领域专家和专门的规划器[13],就像许多基于学习的异常诊断方法[16],[17],[18]一样,这些方法需要大量数据才能获得良好的性能。因此,直接用LLM替代经典任务规划器来指导机器人完成复杂的TAMP任务仍然是不可靠的,也难以泛化。
然而,从另一个角度来看,LLM能够有效地将自然语言指令转换为正式的任务描述,如PDDL格式[13],[14]。利用LLM辅助传统的TAMP规划器(例如,通过提供PDDL目标)是一种可行的方法。LLM的一般逻辑推理能力可以弥补传统TAMP规划器的不足,特别是在更灵活地处理异常情况方面。
在之前的工作中[15],他们将TAMP解决方案中的动作转换为行为树的条件子树(CSubBTs)以供执行,这提供了稳健的执行能力和受限空间探索能力。在此基础上,我们提出了一个由LLM辅助的闭环规划和执行系统(LLM-PAS)。该系统通过传统的TAMP规划器生成动作序列,并自动将这些动作转换为CSubBTs以进行稳健的执行。在执行过程中出现的扰动(如传感器错误)可以通过CSubBTs内部的调整来解决。然而,如果出现CSubBTs无法处理的异常情况,系统将在完全探索约束空间后将不可满足的约束信息传递给LLM模块。在本文中,我们使用了OpenAI ChatGPT API;不过,该系统也可以使用其他LLM。因此,我们将与LLM功能集成的组件称为LLM模块。
为了确保LLM模块专注于处理异常而不被无关上下文分散注意力,我们引入了一种称为“首次查看提示”(FLP)的方法。在FLP中,仅提供与异常相关的信息作为LLM模块的初始提示。然后使用LLM的输出作为FLP,并通过添加相关的上下文信息创建后续提示。LLM模块的最终输出被格式化为PDDL目标,供规划器在遇到异常时进行在线重新规划。
总结来说,我们的贡献如下:
•我们提出了一个具有稳健性能和通用异常推理能力的规划和执行系统,适用于TAMP应用。
•我们介绍了FLP方法,并通过与其他基于LLM的反应式规划器的比较证明,它生成了更有效和详细的PDDL目标,有助于规划器重新规划。
•我们通过仿真和真实世界实验验证了LLM-PAS系统的有效性,展示了其处理常见异常和成功完成任务的能力。
本文的其余部分组织如下。第2节讨论了传统TAMP方法的局限性,并提供了关于在反应式规划中使用LLM的背景信息。第3节介绍了将LLM集成到系统中所需的技术基础。第4节介绍了所提出的LLM-BT框架,总结了提示设计实验,并通过仿真和真实世界实验验证了整个系统。最后,第6节总结了本文并讨论了LLM-BT当前的局限性。