编辑推荐:
研究人员提出了一种混合视觉伺服控制框架,将粗定位的位置式对准与细粒度的闭环校正相结合,采用生成式模仿学习(Imitation Learning, IL)模型——改进的带变换器动作分块(Action Chunking with Transformers, ACT
研究人员提出了一种混合视觉伺服控制框架,将粗定位的位置式对准与细粒度的闭环校正相结合,采用生成式模仿学习(Imitation Learning, IL)模型——改进的带变换器动作分块(Action Chunking with Transformers, ACT)方法。该框架采用两阶段控制策略:首先,机械臂基于视觉逆运动学规划移动至预定义预抓取位置;随后,训练后的ACT模型依据实时视觉反馈迭代预测并执行离散校正动作(步长5 mm)。模型训练使用了440条真实采摘场景的专家演示数据,以确保动作覆盖度与数据质量。田间试验表明,在中等初始偏差条件下,抓取成功率达66.7%–70.7%;严重初始偏差下,30–34次试验的点估计成功率为56.7%–61.8%,并提供了精确置信区间;无初始偏差时成功率可达91.0%。传统开环位置伺服方法即使轻微偏差也会导致成功率降为零。结果验证了将生成式IL与闭环视觉伺服结合可显著提升机器人在实际农业任务中的适应性与自主纠错能力。
研究背景方面,农业自动化是机器人领域的重要研究方向,尤其在果蔬采摘机器人中备受关注。现有系统多依赖预定义动作序列,缺乏执行过程中的自主决策能力,普遍采用基于单次视觉测量的开环运动规划,对定位误差高度敏感,累计误差或果实微小位移均会导致末端执行器偏离目标。温室环境复杂多变,光照变化、遮挡及果实不规则分布增加了任务难度。强化学习虽可提升适应性,但仿真到现实的迁移成本高且泛化性差;传统模仿学习则易因数据集分布局限而在罕见偏差情况下表现不佳。因此,亟需一种兼具定位效率与局部闭环校正能力的混合框架,以提升果梗抓取的精度与鲁棒性。
关键技术方法方面,研究人员构建了两阶段视觉伺服控制框架,第一阶段采用位置式视觉伺服,利用逆运动学引导机械臂到达预抓取位姿;第二阶段引入改进的ACT模型,基于实时视觉反馈预测离散校正动作。硬件平台包括七自由度机械臂(RealMan RM75B)、定制末端执行器、双RGB‑D相机(Intel RealSense D405)及Xbox控制器用于数据采集。专家演示数据于2025年3月在北京宏福国际农业基地采集,涵盖无偏差、左右偏差及垂直偏移等多种条件,共440条完整轨迹,每条平均包含30–40个离散动作。改进ACT将连续动作空间离散化为七个方向(上、下、左、右、前、后、停止),结合ResNet‑18骨干网络提取视觉特征,并通过KL散度正则化优化潜在变量,实现稳定、可重复的推理。
研究结果方面,在消融实验中,研究人员首先调整KL散度权重,发现权重为8时Top‑1准确率达92.95%,且在“停止”和“后退”等难分类别上取得最佳平衡;权重过高或过低均导致性能下降。其次比较不同骨干网络,ResNet34准确率最高(92.38%),但推理速度较慢;ResNet18在保持91.18%准确率的同时实现最快推理(约0.0489 秒/帧),被选为最终模型。可视化测试显示,改进ACT在无偏差、左偏和右偏条件下均能生成与专家演示高度一致的校正序列,仅在终止策略上略显保守。田间试验中,位置式视觉伺服在无偏差时成功率94.0%,但一旦出现偏差即完全失败;而所提方法在无偏差时成功率91.0%(平均耗时9.1 秒),中等偏差时成功率66.7%–70.7%(耗时8.8–9.2 秒),严重偏差时成功率56.7%–61.8%(耗时10.1–10.6 秒)。失败案例主要包括视觉幻觉导致错误动作、未执行校正直接前进、背景干扰误识别目标以及动作顺序不当四类,反映了感知与决策环节的局限性。
讨论部分指出,该方法显著优于传统位置伺服策略,并在与已有研究的对比中表现出更高的有效采摘率(42.5%–68.3%)。然而,模型在极端偏差和复杂背景下仍有不足,主要源于演示数据多样性有限及单模态视觉输入的局限。研究人员建议未来通过标准化演示数据、引入多模态传感(深度、触觉、力觉)以及结合强化学习微调与预测世界模型来提升鲁棒性和时序合理性。
结论部分表明,该混合视觉伺服框架成功实现了果梗抓取的闭环自适应控制,能够在温室环境中有效补偿初始偏差,减少对人工校准的依赖,为高精度农业采摘机器人提供了可行方案。论文发表于《Information Processing in Agriculture》。