基于预优化的深度强化学习在随机H2/CO比例合成气切换下游过程中的自主经济性和能量管理应用

时间：2026年1月20日

来源：Journal of Cleaner Production

编辑推荐：

智能优化控制策略在随机合成气切换下游过程中的应用研究。针对传统控制方法在非线性耦合、多目标优化和动态损失方面的局限性，提出预优化嵌入深度强化学习的控制框架。通过NSGA-II算法生成初始动作集并嵌入优化约束机制，结合SAC算法的熵正则化特性，实现经济成本和熵效率的协同优化。实验表明，该框架相比PID和传统DRL降低熵损失3.8%-2.1%，运营成本降至8542美元，并保持产品控制稳定性。

杨森|刘子健|崔哲|王伟|田文德

青岛科技大学化学工程学院，266042，青岛，中国

摘要

在全球变暖和能源需求不断增长的推动下，可持续合成气生产作为更清洁的能源载体持续得到发展。通过调整合成气中的H₂/CO比例，可以为合成多种下游化学品提供定制的原料。然而，下游过程的非稳态特性、随机行为以及模型与实际系统的不匹配问题，使得现有的控制策略和运营管理变得复杂。本研究针对具有强烈随机性和动态损耗特征的随机合成气切换（SSSD）过程，提出了一个基于预优化的深度强化学习（DRL）控制框架，以实现自主的经济性和能量（2E）管理。首先，开发了一个高精度的SSSD过程动态模型来模拟系统的随机行为和动态损耗。然后，将优化约束算法创新性地嵌入到DRL框架中，为每次随机重置获得一组优化的初始动作。最后，训练智能体与动态模型互动，以实现高效的探索和奖励，从而产生最优控制策略。与比例-积分-微分（PID）和传统DRL框架相比，所提出的方法将能量损耗降低了3.8%和2.1%，同时实现了最低的运营成本8542美元以及最稳定的产品控制。

引言

在当前全球能源危机和环境问题日益严重的背景下，由H₂和CO组成的合成气作为一种清洁高效的能源载体受到了广泛关注。不同H₂/CO比例的合成气是合成各种产品的核心前体（Wenzel等人，2017；Zou等人，2024），并直接影响下游过程（如费托合成、甲醇生产和氨合成）的效率和产物选择性（Hua等人，2022）。甲烷双重整过程（包括蒸汽重整和CO₂重整）被认为是一种有前景的合成气制备方法，因为它可以同时消耗CO₂和CH₄这两种温室气体。此外，通过调节CO₂和蒸汽的流量，可以轻松改变合成气中的H₂/CO比例（Ibrahim等人，2024）。然而，原料气源的动态变化、不确定性以及H₂/CO切换过程中复杂过程变量的高度耦合，给下游过程的资源管理和回收带来了挑战，甚至影响产品质量和运行稳定性。因此，化学和能源领域迫切需要能够在不确定性下实现经济性和能量（2E）等多目标智能管理的高效灵活控制框架。

解决这一问题的传统控制方法包括基于人工经验的控制、比例-积分-微分（PID）和模型预测控制（MPC）。具体来说，基于人工经验的控制依赖于操作员的过去经验来手动调整系统，这种方法缺乏一致性和重复性，难以在复杂和动态的环境中实现最优控制（Li等人，2025）。PID通过调整控制变量的比例、积分和微分部分来实现精确的系统控制。尽管它在工业控制中广泛应用，但它依赖于预设的控制值。对于非线性和多变量耦合系统，PID参数调整既耗时又不稳定（Chowdhury等人，2023）。MPC通过开发严格的数学模型来预测未来的系统行为，从而优化当前的控制决策，它可以处理多个变量和约束，并具有出色的动态响应能力。然而，这样的框架需要较高的建模成本（Coraci等人，2023），并且无法克服与实际系统的不匹配问题（Hassanpour等人，2024）。

近年来，作为前沿的机器学习技术，深度强化学习（DRL）已在游戏开发（Silver等人，2016）、机器人控制（Gu等人，2023）、自动驾驶（Wu等人，2024）等领域得到广泛应用。作为一种无模型方法，DRL独特的智能体-环境交互学习模式特别适合于高维和非线性问题中的最优控制和管理（Li等人，2023）。其关键优势之一在于能够通过与环境的直接互动来学习复杂的决策策略，而不依赖于显式的系统模型（Liu等人，2025）。这使得DRL能够适应动态条件，并处理传统优化方法难以处理的问题（Liu, Z. E.等人，2024）。例如，一种基于DRL的能源管理方法被用于工业联产应用中的中性氢生产和储存，通过整合价格和能源预测来提高算法的优化效果，并适应动态价格变化（Dreher等人，2022）。基于策略算法的DRL框架被开发出来，以在可再生能源不确定性降低的情况下实现实时最优能源储存系统规划。与确定性混合整数线性规划（MILP）解决方案相比，DRL保证了约90%的利润，并且比随机优化方法获得更高的回报（Kang等人，2023）。还提出了一种基于多智能体的DRL方法，用于电网响应建筑物的需求响应，它为各个建筑物分配智能，以促进具有不同负荷的需求响应计划，与传统方法相比，减少了净负荷的需求超过6%（Xie等人，2023）。然而，DRL也存在明显的局限性。它通常需要大量的交互数据和计算资源进行训练，其性能可能对超参数设置敏感（Liu等人，2024）。此外，学习到的策略通常缺乏明确的可解释性，在奖励稀疏或具有欺骗性的环境中收敛可能具有挑战性。DRL在复杂决策和动态系统中的巨大潜力吸引了化学工程的兴趣。例如，提出了一种用于批式生物制药过程最优控制的新型DRL框架，通过整合操作配方知识来克服训练过程中的不稳定性，平均青霉素产量提高了14%（Li等人，2024）。还提出了一种用于单阶段多产品反应器动态调度的DRL模型，提供了系统中不确定性的自然表示。结果表明，所提出的方法优于MILP调度器（Hubbs等人，2020）。提出了一种结合DRL和专业知识的流程控制器，用于酸性水处理厂的优化，与反馈控制器和前馈控制器相比，每年分别节省了17,647美元和16,130美元（Wang等人，2024）。由于其独特的优势，Soft Actor-Critic（SAC）算法被选为学习框架，特别是对于复杂的过程控制问题。SAC的最大熵框架通过熵正则化促进了更高效的探索，这对于处理SSSD过程的高随机性和非线性特别有益。与其他演员-评论家方法相比，SAC展示了更高的样本效率和训练稳定性，缓解了深度确定性策略梯度（DDPG）中的价值高估问题和Twin Delayed Deep Deterministic（TD3）或Proximal Policy Optimization（PPO）中的收敛不稳定问题。此外，熵项自然适应了多目标2E优化中的权衡，使智能体在追求最优经济性和能量性能的同时保持多样化的行为模式。尽管DRL在化学工程中的应用取得了令人印象深刻的结果，但仍有一些亟待解决的挑战：（1）化学过程具有不可避免的高非线性、耦合性和不确定性（Shokry等人，2021）。这一特性对DRL的随机探索和鲁棒性提出了更高的要求，因此现有研究面临在随机探索下的学习效率问题（Zhang等人，2023）。（2）稀疏和具有欺骗性的奖励导致DRL不稳定和收敛困难（Wang等人，2024），尤其是在具有多个控制目标的动态系统中。

本文提出了一种基于预优化的DRL控制框架，用于随机合成气切换下游（SSSD）过程的经济性和能量（2E）管理。本研究专注于开发一个自主控制系统，在不同的合成气条件下最小化运营成本和能量损耗，同时保持产品质量。研究范围包括设计一种新型的预优化Soft Actor-Critic（Po-SAC）框架，该框架结合了随机重置机制和优化的约束公式，以提高探索效率和策略的鲁棒性。虽然该方法是为SSSD过程专门开发和验证的，但所提出的框架也适用于其他需要在不确定性下进行自适应控制的复杂工业过程。与现有研究相比，主要贡献如下。

●
所提出的控制框架将能量损耗降低了3.8%，运营成本降至8,542美元，在随机SSSD过程中表现出优于PID和传统DRL的2E性能。
●
将优化约束算法嵌入其中显著提高了鲁棒性并加速了学习过程，使智能体能够避免次优策略，并更有效地适应实际过程的变异性。
●
通过结合定制的奖励函数和软约束，该方法在多种操作条件下实现了更稳定的产品控制和更高的探索效率。

部分摘录

基于Po-SAC的优化控制框架

所提出的Po-SAC最优控制框架如图1所示。该框架旨在通过控制热回收和CO₂捕获过程的变量来解决SSSD过程的经济性和能量（2E）管理问题，包括环境和智能体部分。实施过程分为两个阶段：首先，NSGA-II算法进行离线预优化，为离散的H₂/CO比例生成最优的初始动作，并存储为查找表；然后，在在线训练期间，Soft

过程描述和动态建模

甲烷双重整和SSSD过程如图3所示。蒸汽、天然气和CO₂被用作预重整器和管式重整器（约900°C，26巴）的原料，进行蒸汽甲烷重整（SMR）和干甲烷重整（DMR）以制备合成气，同时进行水煤气变换（WGS），相关方程见（11）、（12）、（13）、（14）。SSSD过程分为热回收和CO₂捕获。在热回收部分，包括五个换热器和三个