机器人操纵和导航任务传统上使用强化学习(RL)和模仿学习(IL)方法来解决。这些方法在各种环境中表现出色,但往往依赖于密集的奖励信号、精心设计的专家演示或大量的任务特定调整[1]、[2]、[3]。基于Transformer的模型(如ACT [4])通过实现细粒度的、序列感知的控制进一步推进了机器人策略学习。
最近,基础模型作为传统RL/IL方法的替代方案出现,它们提供了无需任务特定训练或奖励工程即可使用的通用能力。视觉-语言模型(VLMs),如PaLI-Gemma [5]、LLaVA [6]和Qwen-VL [7],在图像-文本对齐和指令理解方面表现出色。尽管这些模型并非专为机器人设计,但它们可以解释自然语言命令和场景上下文,适用于高级规划和零样本推理。
基于这一趋势,视觉-语言-动作(VLA)模型结合了视觉-语言编码器和视觉运动控制单元,以支持端到端的机器人控制。最近的例子包括RT-2 [8]、RT-X系列 [9]、OpenVLA [10]、MiniVLA [11]、Physical Intelligence的以及NVIDIA的Gr00t-N1 [13]。这些模型通常在大型多样化数据集(例如Open-X Embodiment [9])上进行预训练,并整合了异构数据源,包括网页规模的多模态内容、子任务注释和来自不同机器人实体的演示。它们的目标是在最小的微调下实现跨实体、任务语义和模态的泛化。然而,这种通用性可能导致精度降低、内存使用效率低下以及难以扩展到大型任务库[14]。
同时,专家混合(MoE)架构作为一种模块化方法重新引起了人们的兴趣。最初由Jacobs等人[15]提出用于自适应任务分解,现在MoE被广泛用于提高大型语言模型的效率[16]和机器人学习。在灵巧操作方面,残差MoE结构[17]允许在没有语言输入或Transformer的情况下组合专家策略。MoLe-VLA [18]引入了一个时空感知的路由器,根据令牌相关性动态激活VLA模型中的子层。在运动领域,MoRE [19]和GERM [20]将稀疏专家激活应用于四足动物控制,平衡了样本效率和泛化能力。类似的,最近的推理优化工作如MoDE [21]和Tra-MoE [22]利用稀疏门控Transformer来改进多领域策略预测。
尽管这些系统显示出潜力,但它们都存在与架构刚性相关的关键限制。在广泛数据上训练的通用模型往往会导致任务性能下降和运行时内存使用量增加。相反,现有的基于专家的MoE通常需要协调训练和与特定单一模型结构相关的内部分布机制。这在专业化、模块化和部署灵活性之间引入了一个关键权衡,这个问题尚未得到完全解决。
为了解决这些限制,我们采用了一种模块化架构视角,其中每个专家都可以独立开发、定制和优化。这将训练与部署分离,允许在任务和实体之间灵活重用。因此,我们提出了模块化指令路由架构(MoIRA)(图1),该框架旨在通过自然语言任务和专家描述进行零样本情节模型路由。除了路由功能外,MoIRA还设计了通过基于适配器的专家实现实用的专业服务,支持基于磁盘的交换和多适配器[23]、[24]热切换,以实现低延迟部署。MoIRA通过利用一组预训练的专业专家来规避单一MoE的可扩展性限制,每个专家都在特定领域进行了微调。一个轻量级的元控制器根据文本任务描述,通过基于嵌入的相似性或提示驱动的推理动态选择最相关的专家。
我们在两个机器人基准测试中评估了MoIRA:GR1 [13](涵盖全身、仅手臂和手臂与腰部三种实体变化)和LIBERO [25](将任务分为目标和空间语义类别)。在这些实验中,我们使用GR00t-N1和视觉-语言-动作(VLA)框架,并结合LoRA适配器[26]来实现高效的专业家训练。路由模块是预训练并固定的,无需额外调整即可将任务映射到专家。
我们的贡献如下:
- 1. 我们提出了一种新的模块化路由架构MoIRA,它根据任务的文本描述将任务映射到预训练的专家。
- 2. 我们评估了两种路由策略——基于MiniLM [27]的余弦相似性和基于SmolLM2-1.7B [28]的提示驱动推理,并证明了其在输入扰动下的鲁棒性。
- 3. 我们在GR1和LIBERO基准测试中验证了MoIRA的性能,表明它在目标任务和以前未见过的任务上始终优于或与通用模型和其他MoE方法相当。
- 4. 我们提供了推理时专家服务的实证分析,量化了(i)完全实例化的适配器、(ii)基于磁盘的交换和(iii)多LoRA热切换在可扩展的多专家部署之间的权衡。
通过将任务语义与执行分离,MoIRA实现了可扩展的模块化控制。它使用与架构无关的外部路由机制来协调一组动态的专业专家,每个专家都实现为轻量级的LoRA适配器。基于文本的零样本路由允许独立添加、更新或替换专家,而无需昂贵的联合训练或重新训练路由器。它验证了一种灵活的设计范式,使机器人代理能够在任务之间泛化,同时受益于专业化,为单一训练管道提供了替代方案。