路径规划是机器人控制系统开发中的基本问题之一[1,2]。在传统解释中,路径规划算法基于数学模型,其复杂性取决于运动学模型、自由度、运动约束、对外部干扰的适应能力以及所选的目标规划算法。如果充分考虑并适当选择这些因素,可以使受控物体以最低能耗沿最短轨迹移动,从而实现最优路径规划。尽管使用传统算法构建最优系统较为复杂,但研究人员仍在研究中继续使用它们,并对其进行改进,以减少局部最小值问题并实现路径最优。Qin H [3]、Yu Z [4] 和 Wu L [5] 的工作探讨了这一主题。
在本研究中,分析了每个训练周期中的奖励分配方法对强化学习(RL)算法在移动机器人(MR)到达目标区域任务中的有效性影响。采用基于深度确定性策略梯度(DDPG)的算法来控制MR。该算法及其改进版本是动态环境中控制和路径规划任务中最受欢迎的算法之一。例如,在参考文献[[6]]、[[7]]、[[8]]、[[9]]、[[10]]中,DDPG算法被用于解决训练过程中出现的问题并提高算法收敛性。在参考文献[[11]]、[[12]]、[[13]]中,改进的DDPG算法被用于控制具有非平凡控制系统的机器人系统,证明了其有效性。Nor N.V [14] 的文章中也使用了DDPG算法来控制球形机器人沿任意曲线的运动。此外,Yudin D.A. 和 Panov A.I. 的研究致力于将RL和SLAM方法集成[[[15]]、[[16]]、[[17]]、[[18]],这些研究描述了在动态环境中进行路径规划任务的有效机器人控制算法,以及分析和处理感官信息的方法,这些方法对结果有显著影响。