随着工业化和城市化的快速发展,有效管理废水对于生态系统保护和可持续发展变得越来越重要(Mahdian等人,2024年)。电镀废水通常含有高浓度的重金属、有机污染物、氮和磷,这带来了独特且严重的处理挑战(Chen等人,2022年)。曝气是废水处理中的一个基本生物处理步骤,显著影响污染物去除效率和运营能源成本(Sihag等人,2021年;Åmand等人,2013年)。不充分的曝气不仅会导致污染物去除不足,还会导致生物量降解。相反,过度曝气会导致不必要的能源消耗和运营费用增加。除了能源使用外,曝气设置还与工业废水处理厂中重金属和营养物质的去除效率密切相关,从而影响下游水生生态系统、饮用水供应和法规合规性。在富含金属的电镀系统中,不稳定的曝气控制会放大出水质量的波动性,并削弱在负荷变化下的处理性能稳定性。由于曝气可能消耗废水处理厂总能量的50%,最近的技术进步(如波浪驱动的摩擦电纳米发电机)有望将这一需求降低到仅0.26千瓦时/立方米(Li等人,2026年)。此外,诸如2020年欧洲气候和能源包等法规框架也加大了废水处理厂提高处理效率同时减少能源使用和温室气体排放的压力(Borzooei等人,2020年)。因此,迫切需要开发适用于高强度工业废水系统的自适应、高效且定制的曝气控制策略,以同时稳定出水质量性能并减少曝气的能源和排放足迹,从而克服传统静态曝气方法的局限性。
传统的经验方法由于其简单性和易于实施而被广泛用于曝气控制。例如,基于光谱诱导极化(SIP)框架的经验方程和试点规模实验用于监测氨解吸等过程,这些方法严重依赖于特定现场的校准参数(如pH值、电导率),这限制了结果在不同系统配置中的泛化能力(Rahmani等人,2025年)。此外,经验模型通常假设稳态运行条件,因此无法准确捕捉废水处理过程中常见的动态变化(Yetılmezsoy,2017年)。为了解决这些限制,特别是活性污泥模型(ASMs)等机理模型已被广泛开发出来,用于模拟废水处理厂内的详细生物化学和物理反应(Zaveri等人,2025年)。然而,最近的研究表明,使用光谱诱导极化(SIP)等经验框架来监测氨解吸等过程仍然严重依赖于特定现场的参数校准(如pH值、电导率),限制了它们在不同系统配置中的适应性,从而限制了其在实际曝气控制中的广泛应用(Elsayed等人,2025年)。尽管机理模型理论上可以表示过程动态,但它们经常受到不确定性和参数敏感性的限制,使得实际应用变得复杂。因此,迫切需要开发替代的数据驱动建模方法,这些方法能够提供准确的预测,易于解释,并在复杂、不确定的运行条件下提供稳健的解决方案。
为了应对经验和机理模型的固有挑战,最近的研究越来越多地转向数据驱动的建模方法,特别是机器学习(ML)方法,因为它们具有强大的预测准确性和捕捉复杂非线性系统行为的能力(Duarte等人,2024年)。传统的ML算法,如人工神经网络(ANN)、随机森林(RF)和支持向量机(SVM)在废水处理中表现出显著的潜力,在出水预测、能源管理和过程优化任务中取得了高绩效(Jana等人,2022年;Abunama等人,2024年)。最近,先进的基于树的集成模型(如XGBoost)与多目标优化框架相结合,实现了水质和能源效率的同时提升(Chen等人,2024年)。然而,这些强大的模型往往被视为“黑箱”,这限制了它们在实践中的接受度,因为操作员和工程师无法轻易了解单个输入如何影响预测的出水质量或能源使用(Vanrolleghem等人,2025年)。例如,Gao等人(2025年)报告称,即使在半干旱地区用于河流水质预测的高性能深度学习模型也存在可解释性和可靠性方面的问题,强调了纯数据驱动的网络难以用于管理决策。同样,Makumbura等人(2024年)指出,用于城市水质评估的集成机器学习模型在工程结果中表现为“黑箱”,并强调输入如何影响预测的缺乏透明度可能会阻碍实践者的直接应用。这些发展突显了需要用可解释的机器学习工具来补充高性能的集成模型,以便为工业废水处理厂的运营决策提供透明的特征级解释。
因此,引入了可解释的机器学习(XML)技术来提高模型的透明度,通过量化每个输入变量对给定预测的贡献。其中最著名的XML方法包括SHapley加性解释(SHAP)、局部可解释模型不可知解释(LIME)和排列特征重要性,每种方法在一致性、局部性和稳健性之间提供了不同的权衡(Islam等人,2025年)。特别是SHAP获得了广泛应用,因为它基于合作博弈论,能够提供复杂的基于树的集成预测的加性和局部准确的分解,并且可以一致地对大型数据集中的影响变量进行排名。最近将SHAP与XGBoost或CatBoost结合的废水处理研究成功地识别了影响操作变量并提高了模型透明度,从而促进了实际的数据驱动过程控制(Wang等人,2022年;Wei等人,2025年)。这些优势也在一个可解释的XGBoost–SHAP框架中得到了证明,该框架用于全规模废水处理厂的有机负荷控制,其中XGBoost模型实现了高预测准确性,SHAP分析确定了曝气率、进水流量和悬浮固体去除率作为主要贡献因素,同时揭示了可以指导有机负荷控制和节能策略的非线性操作阈值(Wei等人,2026年)。类似的基于SHAP的解释方法也被用于低碳废水处理,使用CNN–SHAP–Monte Carlo框架(Lu等人,2025年)。鉴于其与基于树的XGBoost模型的兼容性,本研究采用了SHAP来量化每个进水变量和曝气变量与预测出水指标之间的关联。所得到的基于SHAP的属性既用于解释模型行为,也用于识别后续优化曝气设置的候选控制变量。
虽然先进的机器学习模型改进了与曝气相关的预测任务,但它们的有限可解释性仍然是工业废水处理中自适应控制的主要障碍。在这项研究中,为高强度电镀废水开发了一个系统化和可解释的曝气控制框架,适用于整个工厂规模。该工作围绕三个相互关联的目标展开,也突出了其主要贡献:(1)使用滑动窗口共现网络分析来表征曝气参数和出水质量指标之间的时变关联模式,从而强调了需要自适应控制策略而非静态控制策略;(2)通过将XGBoost与SHAP分析相结合,开发出高保真度且可解释的预测模型,实现准确的出水质量预测和共享及目标特定预测变量的明确识别;(3)将这些可解释模型嵌入到SHAP引导的贝叶斯优化方案中,并结合响应面可视化,以得出针对多个出水目标(COD、TN、TP和NH3-N)的定向和差异化曝气设置。这些步骤共同提供了一个集成的、透明的工作流程,将动态交互分析、可解释的集成建模和多目标优化联系起来,为电镀废水处理系统的智能曝气管理提供可操作的决策支持。