随着航空航天工程的发展,太空碎片和非功能性卫星的数量不断增加,这对执行常见任务的卫星构成了威胁。通过让航天器自主对接这些不受控制的卫星是一种有前景的解决方法[1],[2]。然而,如果不受控制或翻滚的卫星(逃逸者)表现出未知的动力学或机动行为,阻碍了对接航天器(追捕者),则对接过程可以建模为一个PE游戏。此外,大多数情况下,追捕者对逃逸者的控制策略知之甚少或完全不了解,从而导致PE游戏成为信息不完全的PE游戏[3],[4]。
由于追捕者和逃逸者的控制目标相反,PE游戏通常被构建为一个双人零和微分游戏[5],[6]。通过求解PE游戏的HJI方程的鞍点均衡(SPE),可以获得追捕者和逃逸者的最优控制律[7]。近年来,零和微分游戏的研究受到了广泛关注[8]。零和微分游戏的研究可以分为两类。第一类工作试图寻找零和微分游戏的解析解。Pontani等人[9],[10]使用遗传算法选择游戏问题的初始值,并通过非线性规划优化获得了PE游戏的SPE解。Li等人[11]建立了无限时间域中的双人零和线性二次微分游戏,并通过求解矩阵代数Riccati方程获得了游戏的SPE。Wu等人[12]将航天器PE游戏问题转化为两点边界值问题,并提出了一种结合遗传算法和序列二次规划的混合解决方法来获得PE游戏的SPE解。然而,在航天器PE游戏的背景下,HJI方程的精确解很难得到,因此只有在少数情况下才能获得航天器PE的解析解。第二类工作采用ADP和强化学习,这些方法不需要HJI方程的解析解[13],[14],[15],[16]。ADP的主要思想是通过动作网络和评论网络的协同演化来近似最优控制律。这种方法有效地避免了直接求解HJI方程时的“维数灾难”[17],[18]。由于其计算效率和适应性,ADP方法已被广泛用于求解PE游戏中的HJI方程。Li等人[19]研究了一个具有未知线性动力学的双人微分游戏问题,并提出了一种基于单个评论网络和两个动作网络的积分强化学习算法来近似微分游戏的SPE。Liu等人[20]提出了一种新的基于演员-评论网络的ADP算法,用于解决连续非线性系统中的多玩家零和微分游戏。然而,这些在线ADP算法通常需要一个预定义的允许初始策略来确保稳定性,且收敛性对神经网络中的初始权重非常敏感[21],[22]。尽管提出了单网络自适应评论(SNAC)架构[23],[24]通过消除演员网络来减少计算负担,但它仍然存在“冷启动”问题,即SNAC的稳定性对网络的初始值敏感。
上述获取PE游戏解的方法都基于一个假设,即游戏中的参数对游戏中的双方都是已知的。更具体地说,追捕者知道逃逸者控制律中的参数,这显然是不切实际的[25]。在实际应用中,游戏中的玩家信息对彼此来说是未知的,导致追捕者的控制性能相比理想情况会下降[26]。为了解决这个问题,Satak等人[27]提出了一种基于行为学习的游戏框架,并通过观察两个玩家的相对状态来估计控制参数。Tang等人[28]提出了一种结合模式匹配平滑变量滑动滤波器的交互式多模型方法来估计逃逸者未知的控制参数信息。然而,这些估计方法通常假设执行器响应是理想的。然而,在实践中,追捕者的控制命令受到执行器饱和度的限制,这可能会显著扭曲观察到的状态,从而导致参数估计偏差。
总之,当前关于信息不完全的PE游戏的研究存在以下问题:(1)在线ADP算法的性能对所使用的神经网络的初始值敏感[29],[30];(2)忽略了执行器饱和度对参数估计的影响[25],[26]。这种忽略是关键的,因为饱和度会扭曲施加的控制力,从而导致参数估计错误。因此,一个同时解决执行器饱和度和信息不完全问题的鲁棒且计算效率高的框架仍然缺失。
为了解决这些问题,本文提出了一种离线预训练在线迭代近似动态规划(PIADP)框架。本文的主要贡献可以总结如下:(1)设计了一种在饱和度约束下的在线参数估计器。该估计器将饱和度模型纳入估计过程,以克服由控制输入失真引起的参数识别错误。(2)提出了一种结合离线学习和在线校正的PIADP策略。为了克服纯在线ADP方法固有的“冷启动”不稳定性,我们利用离线预训练生成一个稳定的初始允许策略。(3)基于李雅普诺夫的稳定性分析证明了集成饱和度估计器和PIADP控制器的闭环系统的UUB,从而为算法的可靠性提供了理论保证。
本文的其余部分组织如下。第2节建立了PE模型,设计了成本函数,并定义了SPE。第3节开发了在线参数估计器和PIADP算法。第4节的数值模拟验证了所提出方法的有效性和改进的性能。最后,第5节总结了本文。