利用预训练的大型语言模型，并结合精细的提示机制，来实现在线任务规划和运动规划

生物通首页 > 今日动态 > 正文

利用预训练的大型语言模型，并结合精细的提示机制，来实现在线任务规划和运动规划

时间：2026年2月2日

来源：Neurocomputing

编辑推荐：

本文提出基于大型语言模型的闭环任务规划与执行系统LLM-PAS，通过First Look Prompting（FLP）方法优化异常处理，结合传统TAMP与动态执行调整，有效提升复杂场景下的任务执行鲁棒性。

郭慧慧|皮惠龙|秦云川|唐卓|李肯丽

湖南大学，中国湖南省长沙市岳麓区庐山南路2号，410082

摘要

随着人工智能的快速发展，对能够协助人类完成日常任务和执行复杂操作的智能机器人的需求日益增加。这类机器人不仅需要具备任务规划能力，还必须能够稳定且可靠地执行任务。在本文中，我们提出了一种闭环任务规划和执行系统LLM-PAS，该系统由预训练的大型语言模型（LLM）辅助。虽然LLM-PAS以类似于传统任务和运动规划器的方式规划长期任务，但它也重视任务执行阶段。通过将部分约束检查过程从规划阶段转移到执行阶段，LLM-PAS能够探索约束空间，并在执行过程中提供更准确的环境异常反馈。LLM的推理能力使它们能够基于任务和领域知识为经典任务规划器设定目标，同时处理那些无法被稳健执行器解决的异常情况。为了进一步提高系统在重新规划过程中协助规划器的能力，我们提出了“首次查看提示”（FLP）方法，该方法促使LLM生成有效的PDDL目标。通过对比性提示实验和系统实验，我们证明了LLM-PAS在处理任务执行中的异常情况时的有效性和鲁棒性。

引言

工业机器人能够在非结构化生产环境中自主执行长期任务，这是制造自动化领域的一个关键突破。任务和运动规划（TAMP）是一种有前景的方法，因为它能够有效地整合低级几何信息来指导机器人完成复杂任务[1]，[2]。尽管TAMP可以生成包含足够几何信息的动作序列，但在确保这些动作在现实世界环境中成功执行方面仍存在重大挑战，特别是在偏离封闭世界假设（CWA）的情景中[3]。

传统的基于控制的任务规划方法在执行过程中结合了实时环境反馈，从而在规划和执行之间形成了闭环。当由于异常或动态变化导致失败时，这些在线规划器会重新规划或采取纠正措施[4]，[5]，[6]，[7]，[8]。通常，这些方法通过手动预定义的恢复策略或启发式规则来处理异常情况。然而，设置恢复策略需要领域专家设计特定问题的规则，而这些规则难以泛化。此外，某些任务（如寻找丢失的物体）需要代理的主动探索，而这些任务无法通过启发式规划器轻易解决。此外，许多在线规划器侧重于规划过程，并假设异常检测是理想的，依赖于来自模拟场景的准确传感器数据或完整的视觉定位覆盖[5]，[9]。在实践中，某些异常情况要求机器人完全探索其约束空间以提供有意义的反馈。例如，假设机器人的任务是在桌子上抓取一个物体，但最初的目标区域没有检测到该物体。这种类型的异常在动态环境中很常见。在这种情况下，机器人可能需要探索桌子的其他区域来定位物体，如果找不到物体，则可以提供更准确的异常反馈，即“目标物体不在桌子上”。机器人可以利用这种反馈相应地调整其策略。

当检测到异常信息时，如果规划器具备类似人类的逻辑推理能力，其有效性可以显著提高。这使得它能够处理各种任务中的潜在异常，从而扩展其在处理意外情况时的适用性和鲁棒性。LLM在没有额外参数微调的情况下，在任务规划中展示了令人印象深刻的逻辑推理能力[10]，[11]。LLM也被应用于TAMP任务中，在提供适当的上下文提示时生成连续的几何参数[12]。然而，对于更复杂的规划问题（如长期TAMP任务），LLM仍然不足以完全替代领域专家和专门的规划器[13]，就像许多基于学习的异常诊断方法[16]，[17]，[18]一样，这些方法需要大量数据才能获得良好的性能。因此，直接用LLM替代经典任务规划器来指导机器人完成复杂的TAMP任务仍然是不可靠的，也难以泛化。

然而，从另一个角度来看，LLM能够有效地将自然语言指令转换为正式的任务描述，如PDDL格式[13]，[14]。利用LLM辅助传统的TAMP规划器（例如，通过提供PDDL目标）是一种可行的方法。LLM的一般逻辑推理能力可以弥补传统TAMP规划器的不足，特别是在更灵活地处理异常情况方面。

在之前的工作中[15]，他们将TAMP解决方案中的动作转换为行为树的条件子树（CSubBTs）以供执行，这提供了稳健的执行能力和受限空间探索能力。在此基础上，我们提出了一个由LLM辅助的闭环规划和执行系统（LLM-PAS）。该系统通过传统的TAMP规划器生成动作序列，并自动将这些动作转换为CSubBTs以进行稳健的执行。在执行过程中出现的扰动（如传感器错误）可以通过CSubBTs内部的调整来解决。然而，如果出现CSubBTs无法处理的异常情况，系统将在完全探索约束空间后将不可满足的约束信息传递给LLM模块。在本文中，我们使用了OpenAI ChatGPT API；不过，该系统也可以使用其他LLM。因此，我们将与LLM功能集成的组件称为LLM模块。

为了确保LLM模块专注于处理异常而不被无关上下文分散注意力，我们引入了一种称为“首次查看提示”（FLP）的方法。在FLP中，仅提供与异常相关的信息作为LLM模块的初始提示。然后使用LLM的输出作为FLP，并通过添加相关的上下文信息创建后续提示。LLM模块的最终输出被格式化为PDDL目标，供规划器在遇到异常时进行在线重新规划。

总结来说，我们的贡献如下：

•

我们提出了一个具有稳健性能和通用异常推理能力的规划和执行系统，适用于TAMP应用。

•

我们介绍了FLP方法，并通过与其他基于LLM的反应式规划器的比较证明，它生成了更有效和详细的PDDL目标，有助于规划器重新规划。

•

我们通过仿真和真实世界实验验证了LLM-PAS系统的有效性，展示了其处理常见异常和成功完成任务的能力。

本文的其余部分组织如下。第2节讨论了传统TAMP方法的局限性，并提供了关于在反应式规划中使用LLM的背景信息。第3节介绍了将LLM集成到系统中所需的技术基础。第4节介绍了所提出的LLM-BT框架，总结了提示设计实验，并通过仿真和真实世界实验验证了整个系统。最后，第6节总结了本文并讨论了LLM-BT当前的局限性。

节选

任务和运动规划

TAMP结合了低级运动规划和高级任务规划，为长期任务生成可行的计划。规划问题使用领域特定的符号语言（如PDDL）进行形式化，其中计划包含指导机器人执行任务的详细几何信息。基于采样的TAMP方法通过利用动作约束来减少采样空间的维度，以搜索可行的解决方案[19]。采样的几何信息是

使用PDDLStream进行问题表述

PDDLStream [20]是一个基于PDDL的TAMP框架，它允许以流的形式对连续值进行程序化采样。与PDDL类似，PDDLStream使用谓词逻辑来形式化规划问题。谓词p是一个布尔函数，其对一组参数的评估被称为文字。如果布尔函数返回true，则文字成为事实；否则，它被视为否定事实。

在PDDLStream中，有两种类型的文字。流畅文字

系统概述

我们提出了LLM-PAS，这是一个利用LLM的逻辑推理能力并结合了自我调整和重新规划功能的闭环规划和执行系统。LLM-PAS框架如图1所示。该系统使用领域文件（Domain.pddl、Stream.pddl和Problem.pddl）来定义初始动作库和相关先验信息。利用这些输入，PDDLStream规划器生成一个可行的计划

，该计划由一系列符号动作组成

实验评估

我们进行了一系列实验来评估LLM-PAS的性能。我们还在网上上传了一个补充实验视频¹，展示了系统的实际运行情况；视频的最后一部分包括了我们在实验中使用的提示的详细信息。首先，我们测试了LLM模块在出现异常时是否能够有效生成PDDL格式的目标。这些目标的有效性通过领域专家进行了评估

结论

在本文中，我们介绍了LLM-PAS，这是一个由预训练的LLM辅助的闭环规划和执行系统，适用于TAMP应用。LLM-PAS不仅旨在处理一般的TAMP任务，还通过将一些约束检查责任从规划阶段转移到实际执行阶段来增强任务执行过程。LLM-PAS的异常驱动规划机制结合了LLM的推理能力，使经典任务规划器具有一定的自主性，从而