基于深度网络的雅可比场推断实现多样化机器人精准视觉控制

时间:2025年6月27日
来源:Nature

编辑推荐:

针对生物启发机器人因材料复杂、传感缺失导致的建模控制难题,MIT团队提出"视觉运动雅可比场"方法,通过单目视频流自监督学习机器人三维几何与运动敏感性场,实现对气动软体手、Allegro手等多样化机器人12Hz闭环控制,误差低于3°,突破传统刚性建模局限,为低成本仿生机器人自动化开辟新路径。

广告
   X   

在机器人技术蓬勃发展的今天,生物启发式机器人因其仿生结构和环境适应性展现出巨大潜力。然而这类系统往往采用混合软硬材料、缺乏内置传感器,传统基于刚性连杆和关节角的建模方法难以适用。现有解决方案或依赖昂贵的运动捕捉系统,或需要专家针对每种机器人定制动力学模型,严重制约了仿生机器人的普及应用。MIT计算机科学与人工智能实验室的Sizhe Lester Li团队在《Nature》发表的研究,通过创新性地将计算机视觉与神经场表示相结合,实现了仅用普通摄像头就能控制多样化机器人系统的突破。

研究团队开发的核心技术包含:1)构建视觉运动雅可比场(visuomotor Jacobian field),通过12台RGB-D相机采集机器人执行随机命令的多视角视频,自监督训练神经网络预测三维空间点对执行器的运动敏感性;2)基于神经辐射场(NeRF)的几何重建,利用可微分渲染将预测的3D运动场转化为二维光流进行监督;3)模型预测控制(MPC)算法,通过优化 Wasserstein-1距离实现跨视角的三维轨迹跟踪。

研究结果部分,

展示了从单帧图像重建的雅可比场如何编码不同执行器通道对三维点的运动影响。在气动软体手控制实验中,系统成功处理了透明管路导致的6.519mm深度预测误差,实现工具抓取等复杂操作。
证实了12Hz的实时控制性能。

针对Allegro手的定量测试显示,仅凭视觉输入即可实现指尖位置误差<4mm,关节角误差<3°的精确控制。在添加350g配重改变动力学的HSA平台测试中,系统仍保持7.303mm的轨迹跟踪精度,

验证了方法的动态适应性。对于存在明显反向间隙(backlash)的Poppy教育机械臂,系统成功完成空中书写任务,证明了对低精度硬件的兼容性。

该研究的创新价值在于:1)首次实现不依赖机器人材料、驱动方式的通用视觉控制框架,将气动、肌腱驱动等异构系统纳入统一控制范式;2)通过神经场表示突破传统URDF(Unified Robot Description Format)模型对刚性连接的依赖,为连续体机器人建模提供新思路;3)仅需300美元摄像头即可替代万元级运动捕捉系统,大幅降低自动化门槛。正如作者Vincent Sitzmann强调,该方法"将机器人硬件设计从建模能力中解放出来",为下一代仿生机器人开发铺平道路。未来工作可进一步扩展至动态场景和触觉融合,以应对更复杂的操作任务。

生物通微信公众号
微信
新浪微博


生物通 版权所有