深度强化学习在移动机器人控制中的应用：实现朝向指定位置的移动

生物通首页 > 今日动态 > 正文

深度强化学习在移动机器人控制中的应用：实现朝向指定位置的移动

时间：2026年2月11日

来源：Robotics and Autonomous Systems

编辑推荐：

移动机器人强化学习控制研究：通过改进DDPG算法的神经网络架构与奖励分配机制，结合超参数优化，在仿真环境（基于OpenAI Gym）和物理平台进行验证，发现网络设计和奖励策略显著影响控制性能，提出定制化仿真框架和统计对比方法。

I.S. Zvonarev | Yu.L. Karavaev

卡拉什尼科夫伊热夫斯克国立技术大学，俄罗斯伊热夫斯克

摘要

本研究探讨了在深度确定性策略梯度（DDPG）算法中实现多种神经网络架构和奖励分配方案，以控制差动驱动移动机器人完成目标到达任务。研究包括超参数优化，并在仿真和实际应用中评估了算法性能。我们开发了一个符合OpenAI Gymnasium框架原则的专用仿真环境，用于预训练；该环境能够真实模拟差动驱动机器人的运动学特性，确保训练条件的真实性。我们对改进后的DDPG实现与stable_baselines3库提供的经典DDPG进行了统计比较。优化后的模型随后被应用到物理机器人原型上，该原型配备了运动捕捉系统，以确保精确的位置反馈。通过一系列实验，系统地评估了不同的网络架构，并确定了每个训练周期中最有效的奖励分配策略。结果表明，架构设计和奖励 shaping 对移动机器人控制性能有显著影响，强调了仔细调整网络超参数的必要性。

引言

路径规划是机器人控制系统开发中的基本问题之一[1,2]。在传统解释中，路径规划算法基于数学模型，其复杂性取决于运动学模型、自由度、运动约束、对外部干扰的适应能力以及所选的目标规划算法。如果充分考虑并适当选择这些因素，可以使受控物体以最低能耗沿最短轨迹移动，从而实现最优路径规划。尽管使用传统算法构建最优系统较为复杂，但研究人员仍在研究中继续使用它们，并对其进行改进，以减少局部最小值问题并实现路径最优。Qin H [3]、Yu Z [4] 和 Wu L [5] 的工作探讨了这一主题。

在本研究中，分析了每个训练周期中的奖励分配方法对强化学习（RL）算法在移动机器人（MR）到达目标区域任务中的有效性影响。采用基于深度确定性策略梯度（DDPG）的算法来控制MR。该算法及其改进版本是动态环境中控制和路径规划任务中最受欢迎的算法之一。例如，在参考文献[[6]]、[[7]]、[[8]]、[[9]]、[[10]]中，DDPG算法被用于解决训练过程中出现的问题并提高算法收敛性。在参考文献[[11]]、[[12]]、[[13]]中，改进的DDPG算法被用于控制具有非平凡控制系统的机器人系统，证明了其有效性。Nor N.V [14] 的文章中也使用了DDPG算法来控制球形机器人沿任意曲线的运动。此外，Yudin D.A. 和 Panov A.I. 的研究致力于将RL和SLAM方法集成[[[15]]、[[16]]、[[17]]、[[18]]，这些研究描述了在动态环境中进行路径规划任务的有效机器人控制算法，以及分析和处理感官信息的方法，这些方法对结果有显著影响。

方法

本研究提出的方法旨在评估基于强化学习的控制系统在模拟环境中的移动机器人性能。本节概述了仿真框架的结构、控制机器人运动的数学模型以及所使用的学习算法。特别关注状态空间和动作空间的设计、奖励函数以及用于评估系统的实验程序

结果与讨论

为了评估实验结果，我们将分析以下参数：实验所用时间、到达目标区域的最小误差（方程18）、轨迹的曲率（方程20）、行驶距离以及行驶距离的有效性（方程21）。结果见表8。

表8中总结的实验结果允许对三种网络架构（表8）进行详细比较，以评估多个关键指标

未来工作

在未来的研究中，计划将改进的DDPG算法应用于具有更复杂运动学模型的控制系统。Yang B [44]、Sze T [45]、Lyu Y [46]、Li J [47]、Toth B [48] 和 Sarhan I [49] 已经在该领域进行了相关工作，他们提出了一种重要的改进：带有多个评论器的DDPG。此外，还可以考虑其他算法，如各种PPO变体、SAC和TD3。例如，在参考文献[50]中，PPO2被用于控制任务。