为了验证所提架构的通用性,研究采用了两种具有代表性的RL方法进行演示——一种是基于哈密顿-雅可比-贝尔曼方程的价值评论家方法,另一种是基于双延迟深度确定性策略梯度的行动者评论家方法——两者在相同的李雅普诺夫监督切换逻辑下部署。该研究已在非线性化工过程控制问题上进行了仿真验证,结果表明所提出的RL控制框架在保持较低在线计算成本的同时,能够强制李雅普诺夫稳定性并改善系统在扰动下的鲁棒性,从而推动RL向可靠的过程控制部署迈进。这项研究成果已发表于《Digital Chemical Engineering》期刊。
Offset-free state augmentation mitigates steady-state offsets and improves disturbance rejection:仿真结果表明,通过将在线估计的扰动变量θ̂(tk)增广至RL智能体的观测状态中,训练得到的RL策略能够学习补偿不确定性。与仅基于名义状态训练的RL策略相比,采用状态增广的RL策略在存在持续扰动和模型失配的情况下,表现出显著减小的稳态跟踪误差和更优的动态调节性能。
Unified architecture is compatible with different RL algorithms:研究分别将HJB-based value-critic RL和TD3-based actor-critic RL两种不同的RL算法嵌入到相同的李雅普诺夫监督与状态增广架构中,均取得了成功。这证明了所提框架作为一个通用“外壳”的潜力,可以容纳多种先进RL方法,而不影响其核心的稳定与鲁棒性保障机制。
Simulation studies on chemical processes validate the approach:在连续搅拌釜反应器等典型非线性化工过程模型上的仿真研究表明,与无监督的纯RL控制器相比,采用所提框架的控制器在遭遇阶跃扰动和参数失配时,能更有效地将过程变量稳定在设定点附近,同时控制输入保持平滑且在约束范围内,验证了其在真实过程控制应用中的可行性和优势。
总而言之,Xiaodong Cui、Arthur Khodaverdian与Panagiotis D. Christofides的这项工作,代表了一种迈向可靠、鲁棒且高效的数据驱动过程控制的重要步伐。它弥合了新兴的、具有性能潜力的学习型控制器与工业部署所需的严谨理论保证之间的鸿沟,标志着强化学习在从实验室算法走向现实世界工程解决方案的征程中,迈出了坚实而关键的一步。