强化学习(RL)作为一种强大的范式,能够通过与环境互动学习最优决策策略。与提供标记数据的监督学习不同,RL侧重于通过试错进行学习,这使其特别适用于动态和复杂的决策问题[20]、[25]。深度强化学习(DRL)结合了强化学习和深度神经网络[17]、[21]、[22],进一步扩展了RL在高维和复杂领域中的应用。DRL在机器人控制、自动驾驶、游戏和海洋自主系统等领域取得了显著成功[6]、[20]、[30]、[31]、[33]。
最近在DRL算法方面的进展集中在提高稳定性、效率和可扩展性上[32]。例如,近端策略优化(PPO)[23]通过裁剪机制改进了早期的策略梯度方法,防止策略发生剧烈变化,从而在鲁棒性和简洁性之间取得平衡。深度确定性策略梯度(DDPG)[15]将DRL的应用范围扩展到了连续控制任务,而软演员-评论家(SAC)[10]、[29]引入了熵正则化以增强探索行为。异步优势演员-评论家(A3C)[19]通过允许跨环境并行更新进一步提高了训练效率。更近期的方法,如基于模型的策略优化(MBPO)[13],通过将基于模型的元素整合到DRL中,旨在提高样本效率,推动了资源受限场景下的性能极限。
强化学习中的熵正则化,特别是在PPO中,旨在通过向目标函数添加熵项来维持探索行为。这一项防止策略过早变得过于确定,使代理能够探索更广泛的行为范围并避免过早收敛到次优行为[23]。然而,静态熵系数往往导致过度探索或过早利用,从而破坏了最优策略的收敛[16]。已经探索了自适应熵正则化来解决这个问题[5]、[12]、[28],但现有方法难以在不同任务中稳健地平衡探索-利用之间的权衡。
PPO的裁剪机制是另一个核心特性,它限制了策略更新的范围,以稳定训练并防止“破坏性”更新,这些更新可能会因策略变化过于剧烈而降低性能。尽管这种裁剪提高了稳定性,但硬裁剪的刚性可能会过度限制策略更新,尤其是在复杂或高维任务中限制了代理的学习潜力。关于自适应裁剪的研究,如衰减裁剪阈值,旨在解决这个问题[8]、[11]、[26],但这些方法增加了超参数和复杂性,使得在大规模应用中难以有效调整。
尽管自适应熵和裁剪策略带来了改进,但两个根本性限制仍未得到充分解决。首先,现有的熵正则化方法要么依赖于无法适应代理能力变化的静态系数,要么需要增加计算开销的复杂辅助网络。其次,自适应裁剪方法通常在裁剪边界处引入梯度不连续性,从而在高维任务中破坏策略优化的稳定性。本研究旨在通过提出两项关键创新来解决这些问题:动态熵调整机制和先进的裁剪方法。动态熵调整根据训练进度调整熵系数,提供随代理信心水平演变的平衡探索-利用策略。此外,我们引入了一种平滑的分段裁剪机制,取代了硬裁剪。利用二阶泰勒展开,这种方法允许逐步进行策略更新,最小化突变并支持连续、可微的调整。这些改进共同提高了PPO的适应性和稳定性,使其在复杂和动态环境中更加有效。
在本文中,我们提出DPPO来解决PPO的局限性,通过引入基于泰勒展开和分段平滑函数的动态熵系数和裁剪策略来增强策略收敛性和稳定性。本文的主要贡献如下:
1.我们提出了一种动态熵系数调整机制,根据策略的过去表现自适应调节熵系数,结合了累积奖励和动作方差等指标。这种基于反馈的方法在整个训练过程中保持探索和利用之间的最佳平衡。
2.引入了两种熵调整策略:第一种在每次策略更新时调整熵系数,第二种在小批量内更频繁地进行调整,从而在训练过程中实现对探索的更精细和更敏捷的控制。
3.DPPO算法通过用二阶泰勒展开和分段平滑裁剪函数的组合替换了原有的硬裁剪机制,确保了连续和可微的策略更新。这一修改提高了策略更新的稳定性和精度,在复杂环境中表现出更好的性能。
4.使用Bullet物理引擎在连续控制任务上的广泛实验验证了所提出的修改。结果表明,与标准PPO相比,改进后的PPO算法在收敛速度和策略稳定性方面有显著提升,特别是在具有复杂动态的高维动作空间中。这些性能改进在各种任务中都是一致的,证明了动态熵调整和平滑裁剪策略的有效性。