在当前全球能源危机和环境问题日益严重的背景下,由H2和CO组成的合成气作为一种清洁高效的能源载体受到了广泛关注。不同H2/CO比例的合成气是合成各种产品的核心前体(Wenzel等人,2017;Zou等人,2024),并直接影响下游过程(如费托合成、甲醇生产和氨合成)的效率和产物选择性(Hua等人,2022)。甲烷双重整过程(包括蒸汽重整和CO2重整)被认为是一种有前景的合成气制备方法,因为它可以同时消耗CO2和CH4这两种温室气体。此外,通过调节CO2和蒸汽的流量,可以轻松改变合成气中的H2/CO比例(Ibrahim等人,2024)。然而,原料气源的动态变化、不确定性以及H2/CO切换过程中复杂过程变量的高度耦合,给下游过程的资源管理和回收带来了挑战,甚至影响产品质量和运行稳定性。因此,化学和能源领域迫切需要能够在不确定性下实现经济性和能量(2E)等多目标智能管理的高效灵活控制框架。
解决这一问题的传统控制方法包括基于人工经验的控制、比例-积分-微分(PID)和模型预测控制(MPC)。具体来说,基于人工经验的控制依赖于操作员的过去经验来手动调整系统,这种方法缺乏一致性和重复性,难以在复杂和动态的环境中实现最优控制(Li等人,2025)。PID通过调整控制变量的比例、积分和微分部分来实现精确的系统控制。尽管它在工业控制中广泛应用,但它依赖于预设的控制值。对于非线性和多变量耦合系统,PID参数调整既耗时又不稳定(Chowdhury等人,2023)。MPC通过开发严格的数学模型来预测未来的系统行为,从而优化当前的控制决策,它可以处理多个变量和约束,并具有出色的动态响应能力。然而,这样的框架需要较高的建模成本(Coraci等人,2023),并且无法克服与实际系统的不匹配问题(Hassanpour等人,2024)。
近年来,作为前沿的机器学习技术,深度强化学习(DRL)已在游戏开发(Silver等人,2016)、机器人控制(Gu等人,2023)、自动驾驶(Wu等人,2024)等领域得到广泛应用。作为一种无模型方法,DRL独特的智能体-环境交互学习模式特别适合于高维和非线性问题中的最优控制和管理(Li等人,2023)。其关键优势之一在于能够通过与环境的直接互动来学习复杂的决策策略,而不依赖于显式的系统模型(Liu等人,2025)。这使得DRL能够适应动态条件,并处理传统优化方法难以处理的问题(Liu, Z. E.等人,2024)。例如,一种基于DRL的能源管理方法被用于工业联产应用中的中性氢生产和储存,通过整合价格和能源预测来提高算法的优化效果,并适应动态价格变化(Dreher等人,2022)。基于策略算法的DRL框架被开发出来,以在可再生能源不确定性降低的情况下实现实时最优能源储存系统规划。与确定性混合整数线性规划(MILP)解决方案相比,DRL保证了约90%的利润,并且比随机优化方法获得更高的回报(Kang等人,2023)。还提出了一种基于多智能体的DRL方法,用于电网响应建筑物的需求响应,它为各个建筑物分配智能,以促进具有不同负荷的需求响应计划,与传统方法相比,减少了净负荷的需求超过6%(Xie等人,2023)。然而,DRL也存在明显的局限性。它通常需要大量的交互数据和计算资源进行训练,其性能可能对超参数设置敏感(Liu等人,2024)。此外,学习到的策略通常缺乏明确的可解释性,在奖励稀疏或具有欺骗性的环境中收敛可能具有挑战性。DRL在复杂决策和动态系统中的巨大潜力吸引了化学工程的兴趣。例如,提出了一种用于批式生物制药过程最优控制的新型DRL框架,通过整合操作配方知识来克服训练过程中的不稳定性,平均青霉素产量提高了14%(Li等人,2024)。还提出了一种用于单阶段多产品反应器动态调度的DRL模型,提供了系统中不确定性的自然表示。结果表明,所提出的方法优于MILP调度器(Hubbs等人,2020)。提出了一种结合DRL和专业知识的流程控制器,用于酸性水处理厂的优化,与反馈控制器和前馈控制器相比,每年分别节省了17,647美元和16,130美元(Wang等人,2024)。由于其独特的优势,Soft Actor-Critic(SAC)算法被选为学习框架,特别是对于复杂的过程控制问题。SAC的最大熵框架通过熵正则化促进了更高效的探索,这对于处理SSSD过程的高随机性和非线性特别有益。与其他演员-评论家方法相比,SAC展示了更高的样本效率和训练稳定性,缓解了深度确定性策略梯度(DDPG)中的价值高估问题和Twin Delayed Deep Deterministic(TD3)或Proximal Policy Optimization(PPO)中的收敛不稳定问题。此外,熵项自然适应了多目标2E优化中的权衡,使智能体在追求最优经济性和能量性能的同时保持多样化的行为模式。尽管DRL在化学工程中的应用取得了令人印象深刻的结果,但仍有一些亟待解决的挑战:(1)化学过程具有不可避免的高非线性、耦合性和不确定性(Shokry等人,2021)。这一特性对DRL的随机探索和鲁棒性提出了更高的要求,因此现有研究面临在随机探索下的学习效率问题(Zhang等人,2023)。(2)稀疏和具有欺骗性的奖励导致DRL不稳定和收敛困难(Wang等人,2024),尤其是在具有多个控制目标的动态系统中。
本文提出了一种基于预优化的DRL控制框架,用于随机合成气切换下游(SSSD)过程的经济性和能量(2E)管理。本研究专注于开发一个自主控制系统,在不同的合成气条件下最小化运营成本和能量损耗,同时保持产品质量。研究范围包括设计一种新型的预优化Soft Actor-Critic(Po-SAC)框架,该框架结合了随机重置机制和优化的约束公式,以提高探索效率和策略的鲁棒性。虽然该方法是为SSSD过程专门开发和验证的,但所提出的框架也适用于其他需要在不确定性下进行自适应控制的复杂工业过程。与现有研究相比,主要贡献如下。
- ●
所提出的控制框架将能量损耗降低了3.8%,运营成本降至8,542美元,在随机SSSD过程中表现出优于PID和传统DRL的2E性能。
- ●
将优化约束算法嵌入其中显著提高了鲁棒性并加速了学习过程,使智能体能够避免次优策略,并更有效地适应实际过程的变异性。
- ●
通过结合定制的奖励函数和软约束,该方法在多种操作条件下实现了更稳定的产品控制和更高的探索效率。