林珠嘉|王丽敏|李辉|张瑞东|高富荣
海南师范大学数学与统计学院,海口,571158,中国
**摘要**
为了解决工程系统中不可测量状态、外部干扰和多重故障等问题,本文提出了一种基于输入输出数据的无模型H∞输出反馈容错跟踪控制(FTTC)方法,该方法采用离策略强化学习来确保系统的稳定运行和良好的跟踪性能。首先,引入跟踪误差以建立一个新的等效扩展模型;其次,利用极小极大理论定义性能指标函数,并将最优控制问题转化为零和博弈。为克服不可测量状态的局限性,利用历史输入输出数据对其进行重构;然后引入Q函数,并提出了一种无模型的离策略Q学习算法来求解最优控制器,严格证明了该算法对检测噪声的无偏性及收敛性,从而克服了基于策略学习的缺点。最后,通过在注塑成型工业过程和自主水下航行器(AUV)深度控制上的仿真实验验证了该算法的收敛性和跟踪效果。与基于模型的控制方法和状态反馈控制方法相比,在各种AUV故障场景下,本文提出的方法表现出更强的容错能力和更优的跟踪性能。此外,在包括传感器延迟、数据包丢失和测量噪声在内的实际约束条件下进行的实时性能分析也证实了该方法的计算可行性。系统的消融研究为关键设计选择提供了实证验证,特别强调了离策略框架的必要性和初始化策略的鲁棒性。
**引言**
最优控制(Stoorvogel和Weeren,1994;Lai和Xiong,2025;Liu等人,2023;Lu等人,2023)是一种通过在可行条件下优化目标函数来解决控制策略的方法。它是动态系统控制的基础,并为模型预测控制(MPC)(Li等人,2023;Zuliani等人,2025;Zhang和Gao,2026;Hu等人,2026;Xu等人,2026)和强化学习(RL)技术的发展奠定了基础。MPC被视为一种在线最优控制方法,是现代工业控制的主流方法,并已广泛应用于电力电子、微电网和网络化开关系统等领域(Harbi等人,2023;Sampathirao等人,2023;Cheng等人,2025)。
随着技术的进步和硬件的升级,水下作业、化学过程和资源开采等领域的运营需求变得越来越复杂和严格,涉及分布式时空演化(Peng等人,2024;Wang和Zhang,2025)和随机模式切换(Fang等人,2024)等复杂动态,这增加了设备故障的概率。由于操作数据有限或不平衡(Sun等人,2024;Zhang等人,2025;Wu等人,2026;Yuan等人,2026),及时检测和表征故障变得困难,同时准确的数学模型也更难建立(Zhang等人,2025b),尤其是在参数不确定性存在的情况下(Zhang等人,2025c)。这些双重挑战严重限制了传统基于模型的控制方法的适用性。因此,逐渐发展出了不依赖精确数学模型的数据驱动建模和控制方法(Bao等人,2023;Shi等人,2025b;Baggio等人,2021;Wu等人,2026;Chen等人,2026;Lv等人,2026)。RL作为一种新兴的AI驱动的控制和决策技术,已成为解决离散/连续状态空间优化问题的主要数据驱动方法之一(Chen等人,2022)。近年来,RL在过程跟踪控制、容错控制(FTC)和机械系统应用(Fang等人,2023;Roshanravan和Shamaghdari,2024;Zhang等人,2025a;Yang等人,2021)方面取得了显著成果。Fang等人(2023)提出了一种迭代积分RL算法,当系统的全动态未知时使用在线学习方法来解决潮汐涡轮系统的零和博弈问题,确保系统稳定并实现优异的状态跟踪性能。Roshanravan和Shamaghdari(2024)针对具有执行器故障的未知非线性连续时间系统提出了主动FTTC方案,设计了一种自适应双神经网络(NN)识别器来求解基于自适应最优控制理论的Hamilton-Jacobi-Bellman(HJB)方程。Zhang等人(2025c)提出了一种基于离策略RL的方法,通过GARE学习从真实系统数据中求解H∞控制问题,其有效性通过双质量弹簧系统得到了验证。Guo等人(2024)和Li等人(2024)进一步展示了RL在扰动下的非线性系统中的鲁棒控制潜力。
RL大致分为基于策略和离策略两种方法。基于策略的算法中,目标和行为策略一致,需要特定的干扰输入更新,这限制了数据探索并导致局部最优解的出现(Zhang等人,2023)。此外,在目标策略中引入探索噪声可能会在Bellman方程求解过程中引入偏差,从而影响算法的收敛性(Fan等人,2022)。为有效解决这些问题,广泛应用了基于离策略的算法。这些算法能够在学习过程中生成数据,持续更新解决方案,并减轻探索噪声的影响。其中,Q学习算法尤其值得注意,它可以在不依赖环境反馈的情况下评估效用并更新控制策略(Yu等人,2024;Wen等人,2022;Kiumarsi等人,2014;Li等人,2022;Liu等人,2023;Valadbeigi等人,2023)。在Yu等人(2024)的研究中,提出了一种具有最优特征的Q学习方法,以提高连续时间未知非线性仿射系统的控制效率并降低成本。Wen等人(2022)针对二维(2D)系统引入了一种无模型的Bellman方程,通过分析价值函数和Q函数之间的关系,仅使用批量和时间方向的数据进行策略迭代。受Kiumarsi等人(2014)研究的启发,他们讨论了使用Q学习方法解决未知离散时间系统的无限视界线性二次跟踪问题,Li等人(2022)将该框架扩展到包括外部干扰的情况,提出了一个容错H∞跟踪控制问题,并为具有未知动态的线性离散时间系统引入了离策略Q学习算法。仿真结果证实了该算法的收敛性和抵抗外部干扰的能力。Valadbeigi等人(2023)进一步将Q学习扩展到结合辅助系统的鲁棒H∞跟踪。
然而,由于在运行过程中难以测量系统状态(Zhang和Yang,2020),上述基于状态反馈的最优控制策略往往成本较高且适用性较差。因此,出现了不需要系统状态知识的输出反馈控制方法。其中,有许多基于观察器的输出反馈研究(Xu等人,2024;Yang等人,2022;Hu等人,2024)。对于不确定系统,Xu等人(2024)提出了一种带有设计观察器的输出自适应神经网络控制器,以确保所有信号在半全局范围内均匀有界。为了解决由于测量噪声和未知动态导致的机电系统性能下降问题,Yang等人(2022)提出了一种基于神经网络(NN)的输出反馈控制方案,采用在线自适应增益的状态观察器来避免使用受噪声污染的速度,并利用NN补偿未知动态。然而,基于观察器的输出反馈控制方法只能接近次优解,因为存在估计误差(Hu等人,2024)。这种限制在具有时空动态和切换(Peng等人,2024)或随机模式跳跃(Fang等人,2024)等高复杂性的系统中尤为明显。因此,研究人员越来越关注可测量的输出数据反馈控制方法,以消除对外部观察器的需求(Liu等人,2023;Zhen等人,2021;Shi等人,2024)。对于受到干扰的线性离散系统,Liu等人(2023)和Zhen等人(2021)分别基于有限和无限时间范围的输入输出数据引入了离策略Q学习算法,有效减轻了检测噪声的影响。最近的进展包括Shi等人(2025a)使用历史I/O数据为2D批量过程开发了无模型输出反馈最优跟踪,以及Zhao和Lv(2022)提出的可以直接基于输出信息的输出反馈鲁棒控制方法。
尽管在容错控制方面做出了大量努力,但大多数现有工作都集中在特定类型的故障上,例如执行器故障或传感器故障,假设其他组件仍然可靠。一些方法依赖于具有已知切换规则、时空动态或预设不确定性界限的结构化模型。其他方法强调在孤立故障条件下的精确故障估计或基于观察器的重构。这些方法在某些假设下有效,但可能不适用于非结构化、共存故障场景或无法获得完整状态测量的系统。实际上,在真实的工业环境中,执行器和传感器故障通常同时发生或相互作用,而不是孤立发生。这种并发故障会随着时间的推移累积,对系统安全和稳定性构成灾难性风险(Roshanravan和Shamaghdari,2024)。此外,由于维护停机时间、资源限制和经济可行性,频繁更换硬件成本高昂。
近年来,研究人员在复杂环境下的故障诊断和数据驱动控制方面取得了显著进展。例如,为了解决故障诊断任务中的数据不平衡问题,Sun等人(2024)提出了一种基于小波包变换和随机量化的自回归数据生成方法,提高了基于学习的分类器在不平衡工业场景中的泛化能力。在故障估计方面,Peng等人(2024)开发了一种自适应迭代学习方法,用于估计开关反应-扩散系统中的时空故障,解决了模式切换和空间动态下的估计精度问题。在最优控制方面,Zhang等人(2025c)提出了一种预设时间自适应动态规划方法,能够在预定义的时间约束内稳定具有不确定参数的非线性时延系统并实现性能最优。此外,Fang等人(2024)为通过Roesser框架建模的2D马尔可夫跳跃系统设计了一种有限区域异步H∞滤波器,有助于在模式异步和随机转换下的鲁棒估计。这些研究反映了现代控制理论在噪声、结构不确定性和部分可观测性存在下的扩展边界。然而,它们主要针对特定系统架构或在受限假设下的诊断和估计(例如,观察器可用性、孤立故障类型、已知动态)。它们没有直接解决执行器和传感器可能同时故障以及无法获得完整状态测量的情况。这揭示了在无需模型依赖或观察器的情况下处理不可测量状态和并发故障的方法的迫切需求。
为了解决这一挑战,本文提出了一种仅基于输入输出数据的无模型离策略强化学习框架,即使在存在检测噪声、未知动态、外部干扰和共存传感器/执行器故障的情况下也能实现鲁棒的容错跟踪。与现有的容错方法相比,本文提供了以下技术贡献:
(1) 通过输入-输出Q学习在共存传感器-执行器故障下实现完全无模型的容错跟踪控制(FTTC)框架:无需依赖任何系统矩阵、观察器或状态信息,我们从输入-输出动态中构建了一个双玩家零和博弈,并使用离策略Nash Q学习算法解决它,从而在双重故障场景下实现最优性能;
(2) 通过离策略策略实现无偏收敛和固有的噪声免疫:所提出的算法避免了基于策略的强化学习在噪声测量下的常见偏差和发散问题。理论分析表明,即使在检测噪声存在的情况下,我们的离策略公式也能实现无偏的价值迭代;
(3) 提高的容错能力、跟踪性能和实时鲁棒性:在注塑成型过程速度跟踪控制和自主水下航行器(AUV)深度控制上的仿真证明了该算法的鲁棒收敛特性,这些特性基本上不受初始值、检测噪声、多重故障或实际实时约束的影响。特别是在包括传感器延迟、数据包丢失和传感器噪声的情景下,所提出的方法保持了平稳的瞬态响应、最小的超调以及稳定的控制输入能量。值得注意的是,它在稳态精度和输入平滑度方面与状态反馈控制器(需要全状态测量)相当,同时在实际时间约束下显著提高了抗干扰能力,并保持了可靠的性能;
(4) 通过系统消融研究验证设计选择的合理性:全面的消融实验确认了离策略设计对于容错跟踪控制的必要性,与基于策略的替代方案相比,控制努力减少了80.0%。此外,该算法对初始化的鲁棒性也得到了验证,所提出的稳定初始化方法提供了平衡的收敛特性。这些研究为所提算法中每个组件的设计理念提供了实证支持。本文的结构如下:第2节介绍了系统设置并阐述了控制问题,具体包括系统模型、等效表示的建立、控制目标的详细说明以及初步的稳定性分析。第3节详细介绍了所提出的数据驱动输出反馈容错跟踪控制策略,包括基于历史输入输出数据的状态重构方法、用于获取最优控制器的无模型离策略Q学习算法,以及对其在检测噪声下的无偏性分析和严格的收敛性证明。第4节通过两个典型场景(注塑成型过程和自主水下航行器AUV)的仿真研究来验证所提方法的容错控制性能。第5节通过三个方面对性能进行了验证:比较研究显示了其优越的跟踪精度和鲁棒性;实时测试确认了其在实际约束下的适用性;消融研究证明了关键算法组件的必要性。最后,第6节总结了本文并指出了未来研究的潜在方向。
**系统描述**
考虑一个离散时间工程系统:
$$
\begin{align*}
s_{k+1} &= A_s k + B_p k + D_d k y_k &= C_s k \\
\end{align*}
$$
其中 $ \mathbf{p}_k^F = \alpha \mathbf{p}_k y_k $ 分别表示时间 $ t_k $ 的系统状态、控制输入、干扰输入信号和系统输出。$ \mathbf{C}_k $ 是具有适当维度的系统系数矩阵。为了解决在执行器或传感器故障发生时的问题,本文提出了一种数据驱动的输出反馈容错跟踪控制方法。
**数据驱动的输出反馈容错跟踪控制**
该部分提出了一种数据驱动的、无模型的输出反馈控制框架。其核心思想是利用历史输入输出数据来重构不可用的状态信息。这种方法消除了对显式系统模型和状态测量的需求,从而能够基于离策略Q学习算法实现最优输出反馈策略的无模型设计。
**容错性能的仿真验证**
本节将以注塑成型工业过程中的注射速度控制和自主水下航行器(AUV)的深度控制为例,通过仿真实验来验证所提出的无模型离策略强化学习(RL)算法的可行性和收敛性。
**与其他方法的性能比较**
为了全面展示所提方法的有效性、优越性和实际适用性,本节从四个互补的方面进行了性能评估:
(1) 第5.1节:与张和高(2020年)提出的基于模型的增强控制方法的性能比较;
(2) 第5.2节:与李等人(2022年)提出的数据驱动状态反馈控制方法的性能比较;
(3) 第5.3节:结论与未来工作。
**结论与未来工作**
鉴于工程系统的复杂性(如不可测量状态、外部干扰和各种故障),本文提出了一种基于RL的无模型H∞输出反馈FTTC策略,该策略使用了输入输出数据重构方法。在注塑成型过程和AUV深度控制上的仿真实验证实了所提方法在各种执行器和传感器故障场景下的优越容错性能。
**作者贡献声明**
贾林珠:撰写——原始草稿;
王立民:撰写——审阅与编辑;
李辉:撰写——审阅与编辑;
张瑞东:软件开发;
高富荣:资源提供。
**利益冲突声明**
作者声明不存在任何利益冲突。
**致谢**
本工作得到了国家自然科学基金(项目编号:62163012)的支持。