**机器学习量化中国气候梯度上的露水形成机制**

机器学习量化中国气候梯度上的露水形成机制

时间：2026年5月30日

来源：Journal of Hydrology: Regional Studies

编辑推荐：

**摘要：** 研究区域包含11个代表性涡度相关(EC)观测站，横跨中国主要气候梯度（24˚– 43˚N, 91˚–128˚E），从青藏高原的高寒草甸到西双版纳的热带雨林。研究重点在于准确量化降露量仍是生态水文领域的核心挑战。以往基于数据驱动的估算主要依赖于粗

**摘要：** 研究区域包含11个代表性涡度相关(EC)观测站，横跨中国主要气候梯度（24˚– 43˚N, 91˚–128˚E），从青藏高原的高寒草甸到西双版纳的热带雨林。研究重点在于准确量化降露量仍是生态水文领域的核心挑战。以往基于数据驱动的估算主要依赖于粗糙的月度数据，这从根本上掩盖了凝结过程的次日物理阈值。为解决这一差距，研究人员利用连续的多站点数据，开发了可解释的机器学习模型——随机森林(RF)、支持向量回归(SVR)和人工神经网络(ANN)——以在日尺度和月尺度上模拟露水形成。随后，应用可解释AI技术（SHAP、滞后相关和偏相关分析）系统解耦了其潜在的环境驱动因素。本区域的新水文洞见如下：日尺度建模对于捕捉阈值驱动的凝结过程至关重要，它成功避免了传统月度聚合方法中固有的严重过拟合问题（后者错误地学习季节性趋势而非物理机制）。此外，露水作为一种普遍存在的水分补贴，贡献了年降水量的0.98%–6.72%。这种缓冲能力对于缓解水分受限和高寒环境中的短期干旱胁迫具有不成比例的关键作用。最后，可解释AI揭示，在模型中贡献相对较高的生态系统呼吸(RE)/净生态系统碳交换(NEE)，并非凝结的直接因果驱动因素，而是夜间微气候条件的综合代理变量。

基于长期连续的涡度相关数据，本研究在中国主要气候梯度上建立了可解释的机器学习框架，用于量化非降水水分输入。研究背景方面，露水作为夜间凝结在地表形成的液态水，是一种关键的非降水水分输入。在干旱半干旱地区，其累积量在干旱期可与降雨量相当，能直接缓解植物水分胁迫。随着气候变干或降水减少，露水的相对贡献增加，成为支撑生态系统抵御短期干旱韧性的重要水分补贴。然而，由于露水量值小且高度依赖局地微气候，其准确量化一直是水文研究的核心挑战。现有的直接测量方法难以长期大范围开展，而间接能量平衡反演方法（如Penman-Monteith公式和涡度相关法）也存在理论假设多或空间监测能力有限等缺陷。尽管机器学习已被用于估算露水，但现有模型普遍存在两大关键缺口：一是时间尺度不匹配，许多区域研究使用月度平均数据，掩盖了露水形成这一次日阈值驱动过程的物理阈值；二是模型“黑箱”特性，机器学习虽预测精度高，但常混淆直接气象驱动与间接生态信号，限制了模型的可解释性和空间转移能力。为填补这些空白，研究人员利用中国通量观测研究网络（ChinaFLUX）11个不同生态站点的长期连续数据，建立了物理信息可解释的机器学习框架。研究目的包括：系统评估三种机器学习算法在反演露水方面的性能、稳定性和时间尺度效应；重建并量化中国主要生态系统中降露量的时空分布及其生态水文贡献；利用可解释AI技术定量解耦露水形成的驱动机制，特别是明确生态系统碳通量（RE/NEE）的功能作用。

研究人员主要运用了以下关键技术方法：研究样本队列来源于中国通量观测研究网络（ChinaFLUX）的11个长期通量观测站，站点类型涵盖农田、森林、草地、湿地和灌丛等多种生态系统。首先，采用基于贝叶斯信息准则（BIC）的逐步多元线性回归框架进行特征预选，以消除输入变量间的高度共线性。然后，采用严格的时间序列划分策略（训练集、验证集、测试集比例为7:1.5:1.5），并应用三次指数平滑（Holt-Winters法）对数据进行去趋势和去季节性处理。最后，选取支持向量回归（SVR）、人工神经网络（ANN）和随机森林（RF）三种互补的机器学习算法，通过贝叶斯优化独立调整超参数，并采用可解释AI技术（SHAP值分析、滞后相关分析和偏相关分析）对模型进行多阶段可解释性分析，以揭示驱动机制。

研究结果部分如下：

**模型性能评估：** 通过对时间尺度、算法和站点的系统评估发现，在训练阶段，月度尺度模型的R²值通常较高，但其在测试阶段表现出显著的不稳定性，且泛化能力较差，在多个站点出现负的R²值，表明存在严重过拟合。相比之下，日尺度模型在所有站点均保持稳定的预测能力，无负R²值，表现出优越的鲁棒性。在算法比较中，随机森林（RF）算法在日尺度测试集上的平均R²达到0.76，显著高于ANN（0.63）和SVR（0.65），且性能方差最小，展现出最高的精度和跨生态系统的稳定性。因此，日尺度RF模型被选定用于后续分析。

**露水分部：** 基于日尺度RF模型的时空重建显示，露水对年水分平衡的贡献在11个生态系统中存在显著的空间异质性。其对年降水量的贡献比例从暖湿森林（DHS站）的约0.98%到高寒湿地（HBW站）的6.72%不等。绝对降露量通常在降水丰富的地区更高。在时间上，模型可靠地捕捉了研究期间各站点降露量的变化和幅度。这表明露水不仅是一个微不足道的微气象异常，更是一种普遍存在的、具有功能性的生态水文缓冲物，在水分受限系统中尤为重要。

**模型解释：** SHAP分析清晰地揭示了不同生态系统露水形成驱动因素的显著差异。结果显示，在所有生态系统中，碳通量比值RE/NEE均是一个持续有效的预测因子。此外，浅层土壤水分、气温和风速等因素也有重要贡献，但其重要性具有站点特异性。滞后相关分析表明，RE和NEE与降露量的相关性峰值出现在滞后0或+1小时，且曲线在正负滞后方向上近乎对称。偏相关分析进一步证实，RE和NEE与降露量的偏相关系数在不同站点间不仅强度有显著差异，而且方向相反（如在HBW站为显著正相关，在DHS站为显著负相关），其方向和强度受站点特定环境背景的强烈调节。这些分析共同支持一个结论：RE和NEE是夜间微气候的综合代理变量，而非露水形成的直接因果驱动因子。

讨论部分对上述结果进行了深入剖析。在算法性能对比上，日尺度方法因其忠实于露水形成的基本物理过程（次日夜间辐射冷却和瞬时相变动力学）而占据优势。RF算法因其集成结构能天然处理微气象相互作用的复杂性和非线性，在抗噪声和捕捉凝结物理阈值方面优于ANN和SVR。这与以往主要依赖月度聚合数据的研究形成对比，后者因混淆瞬时凝结事件与广泛季节性趋势而经常失效。在生态水文意义方面，研究量化了露水作为水分补贴的关键作用，尤其是在高寒和干旱生态系统中，其贡献不可忽视。在碳通量作用方面，研究通过严格的统计分析纠正了纯数据驱动建模中可能将统计相关性误判为因果关系的倾向，强调RE/NEE的高预测重要性源于其作为微气候综合指标的特性，而非物理上的驱动作用。最后，讨论坦诚了研究存在的不确定性，包括：基于负潜热通量的测量可能混淆露水与雾沉降等其他凝结形式；模型存在“向均值回归”的倾向，可能高估微小露水事件而低估极端事件；碳通量代理变量的因果关系推断仍需控制实验验证。

研究结论部分指出：该研究利用长期连续的涡度相关数据，建立了可解释的机器学习露水估算模型，主要结论如下：（1）时间分辨率显著影响阈值驱动凝结模型的性能。日尺度模型优于存在严重过拟合的月尺度模型，其中日尺度随机森林模型在气候梯度上取得了最高的精度和稳定性，性能排序为RF > SVR > ANN。（2）机器学习反演揭示了露水生态水文贡献的明显空间异质性。露水贡献了年降水量的0.98%–6.72%，在水分受限环境中重要性更高，尽管其在湿润地区的绝对量更大。（3）可解释AI有效分离了露水动态中的统计可预测性与物理因果性。虽然RE/NEE是主导预测因子，但它们仅作为夜间微气候的代理而非因果驱动因子，因此不应作为核心输入特征，以确保模型的跨站点鲁棒性和泛化能力。未来研究应优先将树结构算法与多源遥感数据融合，同时强调特征工程和实地验证实验。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部