简化机器学习模型在评估和预测湖泊水质中的应用

时间：2025年11月10日

来源：Water Research X

编辑推荐：

全球湖泊水质指数（WQI）的多模型预测与简化分析

全球湖泊水体质量指数（WQI）的可靠和高效预测对于可持续淡水管理和增强全球生态韧性至关重要。随着城市化和工业化的加速发展，全球湖泊生态系统正面临前所未有的压力。为了应对这一挑战，本研究提出了一种适用于全球范围的WQI预测框架，基于140,028个经过验证的样本数据，对五大洲的湖泊水体质量进行了多十年的综合分析。研究发现，欧洲湖泊整体水体质量最高，非洲和南美洲湖泊主要属于“一般”质量等级，而亚洲湖泊则表现出最大的差异性。从时间维度来看，WQI在1970年代之前保持稳定，随后自1980年代起持续改善，这反映出污染控制和生态恢复措施的有效性。

本研究对六种机器学习（ML）模型进行了系统评估，包括支持向量回归（SVR）、人工神经网络（ANN）、随机森林（RF）、XGBoost、Kolmogorov–Arnold网络（KAN）和长短期记忆网络（LSTM）。通过随机和时间序列两种数据分割策略，评估了这些模型的预测能力。结果显示，XGBoost在所有模型中表现最佳，其R²值达到0.999，均方根误差（RMSE）为0.45。随机森林和KAN也表现出良好的性能，而基于序列的模型如LSTM则表现不佳，表明WQI预测主要依赖于非线性映射，而非强烈的自回归过程。此外，通过排列重要性和SHAP（Shapley Additive exPlanations）方法，研究发现溶解氧（DO）、总氮（TN）和总磷（TP）是主要的预测因子。将模型简化为仅使用这三个参数后，仍能保持高预测精度（R² = 0.98），从而显著降低数据收集成本。

为了验证简化模型的跨区域适用性，研究团队利用美国华盛顿州三个城市湖泊（Lake Washington、Lake Sammamish和Union Bay）的实地监测数据进行测试。结果表明，该模型能够准确再现这些湖泊的水体质量时间动态，其R²值达到0.906，进一步证实了模型在不同湖域中的泛化能力。这些发现表明，基于树的集成学习方法为全球湖泊水体质量预测提供了一种可扩展、可解释且成本效益高的解决方案，有助于推动环境治理中的动态监测。

本研究的数据来源广泛，涵盖来自公开数据库、同行评审文献、政府监测计划和地理空间数据服务的多十年记录。经过数据清洗，原始数据集从922,019个条目减少到140,028个有效条目，确保了数据的完整性和可靠性。研究团队保留了五个生态关键且全球可获取的参数：pH、溶解氧（DO）、总氮（TN）、总磷（TP）和硝酸盐/亚硝酸盐（NO₃⁻/NO₂⁻）。通过主坐标分析（PCoA）和置换多元方差分析（PERMANOVA），研究揭示了湖泊水体质量的显著空间差异。欧洲湖泊表现出最均匀的水体质量分布，而亚洲湖泊则显示出较大的区域差异，反映了不同地区在水体质量方面的复杂性。

在时间趋势方面，研究发现WQI在1950年代至1970年代之间相对稳定，随后在1980年代后持续改善。这种变化趋势与全球范围内逐步实施的污染控制和生态恢复措施密切相关。此外，通过非参数Kruskal–Wallis趋势检验，研究团队进一步验证了不同年代之间水体质量的显著差异，表明全球湖泊生态系统正在经历一个渐进的恢复过程。

机器学习模型的评估结果表明，基于树的模型（如XGBoost和RF）在随机和时间序列分割策略下均表现出色，而基于序列的模型（如LSTM、GRU和TCN）则表现较差。这说明WQI预测主要依赖于静态的非线性映射，而非长期的自回归过程。尽管时间序列模型在某些情况下可能具有优势，但它们在处理短序列、不规则采样和噪声数据时存在局限性。因此，XGBoost在实际监测条件下提供了最佳的预测准确性和时间泛化能力。

为了增强模型的可解释性，研究团队采用了SHAP分析，识别出DO、TN和TP为主要预测因子。这些参数在生态系统中扮演着关键角色，DO影响水体中的氧气供应和生物活动，而TN和TP则与富营养化和藻类生长密切相关。SHAP分析不仅揭示了这些参数对WQI的贡献，还表明模型并未简单复制传统WQI公式中的固定权重，而是通过数据驱动的方法捕捉了参数之间的非线性关系。这种非线性特征使得机器学习模型在预测湖泊水体质量时具有更强的灵活性和适应性。

模型的简化版本在实际应用中展现出良好的效果，其仅依赖于DO、TN和TP三个参数即可实现高精度预测。这一发现为资源有限的监测网络提供了可行的解决方案，减少了对大量参数的依赖，从而降低了监测成本。同时，模型的跨区域验证表明，其在不同地理和气候条件下均能保持较高的预测能力，显示出较强的适应性和可转移性。

从管理角度来看，机器学习框架显著提高了水体质量评估的效率和可解释性。SHAP引导的特征选择使得监测更加精准，同时保持预测准确性，为水体质量监测提供了新的思路。此外，将机器学习与传统WQI相结合，不仅有助于早期发现水体质量下降趋势，还能指导指标选择和权重调整，支持基于区域生态和社会经济条件的适应性管理。这种结合方式为实现更全面、更灵活的水体质量评估提供了基础。

展望未来，研究团队建议进一步开发混合建模框架，将机器学习与机理性的水文和生物地球化学模型相结合，以提升预测的准确性并改善在气候变化和人类活动压力下的实时情景评估能力。此外，整合机器学习输出与地球观测数据和社会经济指标，将有助于多尺度评估营养物质动态、土地利用影响和污染控制效果，拓展模型在复杂或数据稀缺湖域中的应用范围。同时，将这些工具嵌入“智能监测”框架中，结合现场传感器、遥感技术和自动数据同化，将有助于实现更加及时和经济的水体质量监测。

本研究的成果不仅为全球湖泊水体质量预测提供了一个可扩展的解决方案，也为环境治理和政策制定提供了重要的科学依据。通过机器学习方法，可以更有效地整合多源数据，识别关键影响因子，并实现跨区域的水体质量评估。这为全球范围内的淡水管理和生态保护提供了新的技术路径，同时也为应对未来日益严峻的水资源挑战奠定了基础。随着更多时间连续的监测数据的积累，机器学习方法有望进一步发展为真正的时序预测模型，从而支持更加精准的生态管理和风险评估。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部