评估数据驱动模型以估算内华达山脉的积雪水当量

时间：2026年5月15日

来源：Journal of Hydrology: Regional Studies

编辑推荐：

**Engela Sthapit | Mimi Rose Abel | William Ryan Currier | Rob Cifelli | Peter Fickenscher** 美国国家海洋和大气管理局（NOAA）物理科学实验室，科罗拉多州博尔德市 **摘要**

**Engela Sthapit | Mimi Rose Abel | William Ryan Currier | Rob Cifelli | Peter Fickenscher**
美国国家海洋和大气管理局（NOAA）物理科学实验室，科罗拉多州博尔德市

**摘要**
**研究区域**：图奥勒米河、梅尔斯德河、美国河以及羽毛河流域，内华达山脉地区。
**研究重点**：本研究探讨了数据驱动模型和基于过程的SNOW-17雪模型预测历史雪水当量（SWE）的能力。目前加州-内华达河预报中心发布的水文预报使用了SNOW-17模型模拟的SWE数据。测试了三种复杂程度不同的机器学习方法：多元线性回归（Multiple-Linear Regression）、随机森林回归（Random Forest Regression）和长短期记忆网络（Long Short-term Memory, LSTM）。将表现最佳的LSTM模型的SWE结果与SNOW-17模型的结果进行比较，以了解它们各自的优缺点，从而揭示改进水流预报中SWE信息的可能性。

**对该地区的新水文见解**：在2011年至2016年期间，LSTM模型的交叉流域中位数KGE分别为0.76和0.45，表现出优于其他数据驱动方法和SNOW-17模型的能力。这表明LSTM模型能够捕捉非线性过程和延时的水文响应，这得益于其内部记忆结构。两种模型在高海拔地区的表现更佳，尤其是SNOW-17模型。SNOW-17模型在不同测试期间的偏差相对稳定，而LSTM模型对训练数据的敏感性较高。此外，SNOW-17模型的KGE和偏差在各个流域之间存在较大差异；同时，SNOW-17模型预测的融雪时间较短，积雪消融也更为提前。总体而言，LSTM在预测全流域SWE方面的较高准确性表明其具有很强的潜力，可被整合到水文预报系统中，从而提高水流模拟的精度。

**1. 引言**
积雪是一个天然的水资源库，储存冬季降水量并在春季和夏季融雪时释放。在美国西部，融雪量约占总径流的53%（Li等人，2017年），而这些水资源占该地区农业用水、市政用水和水电生产的75%以上（Bales等人，2006年；Mankin等人，2015年）。内华达山脉的积雪是加州重要的水源，提供了该州约30%的供水（加州水资源部，2024年）。积雪中的水量，即雪水当量（SWE），是陆地水文学的一个重要组成部分，因为它允许水分的储存和延迟释放。这种延迟的储存对于维持土壤湿度以及干旱季节的稳定供水至关重要。此外，融雪时间对于预测径流的时间和强度也非常重要（Barnhart等人，2016年；Hammond等人，2023年；Musselman等人，2017年）。然而，在山区估算SWE具有挑战性，因为气象条件的不确定性以及实地测量数据的稀缺。在高海拔或偏远流域，由于复杂的积雪和融化模式，SWE的异质性更为显著。

基于过程的水文模型是应用我们对雪和径流过程理解的主要工具之一。这些模型通过基本物理方程和经验参数化来模拟局部尺度过程。加州-内华达河预报中心（CNRFC）利用美国国家气象局的社区水文预测系统提供的业务水文预报数据，通过SNOW-17模型实时模拟雪水当量（SWE）（Anderson，1973年）。SNOW-17是一种集总化的、基于过程的积雪积累与消融模型，根据气温和降水量来模拟积雪，并隐含地表示积雪内部的质量和能量交换过程。SNOW-17模型与萨克拉门托土壤湿度核算模型（SAC-SMA，Burnash等人，1973年）相结合，用于估算径流。与其他基于过程的雪模型一样，SNOW-17也存在局限性，例如因输入数据的不确定性及其对积雪积累和消融过程的隐式表示。由于SNOW-17参数与SAC-SMA参数在CNRFC一起校准，因此SWE的偏差可能会影响径流模型的准确性。尽管存在这些挑战，改进模型过程仍然具有价值：一个基于物理原理且能真实反映关键过程的模型，在气候变化和水文条件变化的情况下更有可能表现稳健。因此，准确模拟雪过程能够增强水文动态的表现，从而提升降雨-径流模型的整体性能。

**2. 数据驱动的机器学习技术**
近年来，数据驱动的机器学习（ML）技术作为基于过程模型的替代方案出现，能够在没有明确物理表示的情况下学习输入-输出关系（Nearing等人，2021年）。这类技术在径流预报和其他水文预测中的应用显著增加（Kumar等人，2023年；Xu和Liang，2021年）。机器学习模型的复杂程度各不相同——从简单的、可解释的方法（如线性回归）到中等复杂度的随机森林（Random Forest），再到复杂的神经网络（Flora等人，2024年），后者虽然预测能力更强，但解释性和计算需求也更高。这些权衡因素影响了它们在不同水文应用中的选择。

多元线性回归（MLR）是一种统计机器学习方法，可作为与其他更复杂数据驱动方法比较的基准。虽然SWE与气象输入之间的关系可能是非线性的，但这种比较有助于评估更复杂模型所需的性能。随机森林（RF）作为一种常用的ML技术，通过集成学习方法解决分类和回归问题，在过去十年中在水科学应用中广受欢迎（Tyralis等人，2019年），在预测山区流域的SWE（Vafakhah等人，2022年）、雪深（Yang等人，2020年）以及以融雪为主导的流域的径流（Pham等人，2021年）方面取得了良好效果；同时也能纠正网格化SWE产品的偏差（King等人，2020年）和卫星SWE反演（Schilling等人，2024年）。尽管RF在SWE估算中的应用相对有限，但其在其他水文应用中的成功表明它在此领域也可能有用。由于RF比神经网络模型更简单，它可以作为评估更复杂ML方法的基础。

**3. LSTM模型及其优势**
更复杂的基于数据的模型——长短期记忆网络（LSTM，Hochreiter和Schmidhuber，1997年）——在水电预测中显示出希望，因为它擅长识别非线性关系（Duan等人，2024年；Kratzert等人，2019年等）。LSTM的优势在于能够捕捉长期和短期的时间依赖性，适用于具有长期记忆的自相关时间序列（如SWE），因为它能够捕捉输入和输出之间的长期模式（Duan等人，2024年；Fiddes等人，2019年）。研究表明，在美国西部落基山脉地区，LSTM在预测SWE方面优于其他神经网络模型（Duan等人，2024年）。此外，基于美国和英国大规模数据集的最新研究，LSTM在降雨-径流建模中的表现也优于其他水文模型（Feng等人，2020年；Frame等人，2021年；Gauch等人，2021年；Kratzert等人，2019年；Lees等人，2021年）。虽然LSTM在降雨-径流建模中应用广泛，但关于其在SWE估算中应用的研究较少。在少数相关研究中，LSTM被证明适用于全美范围或区域性的SWE估算（Wang等人，2022年），以及山区流域的SWE估算（Bair等人，2018年；Cui等人，2023年；Duan等人，2024年），这些地区受山地小尺度空间雪异质性的影响较大。LSTM的成功归功于其内部记忆机制——即LSTM架构中的记忆单元，能够存储时间序列数据中的长期依赖性信息，从而模拟动态储水过程（Kratzert等人，2019年；Kratzert等人，2018年）。

基于过程和基于数据的模型在水文预测方面各有优势。基于物理关系和过程的模型可以提供对底层水文过程的洞察，而数据驱动模型则能捕捉数据中的复杂模式和非线性关系，这些关系可能尚未在基于过程的模型中得到明确表达。在非平稳气候条件下，基于过程的模型可能优于机器学习模型，因为它们依赖于物理原理而非历史相关性。然而，这些模型计算成本较高且需要详细的校准过程，且仍依赖于历史观测数据。数据驱动或统计模型实现更快，但对历史数据的依赖性可能导致在条件变化时的可靠性降低。尽管如此，由于数据驱动模型可以直接从观测数据中学习模式，因此在物理模型难以捕捉完整水文过程的山地环境中具有优势。通过比较基于过程和数据的模型，我们可以了解它们的优势和局限性，从而在互补的基础上发挥各自的优势。LSTM在复杂地形下的SWE估算中展现出特别前景，这得益于其在降雨-径流建模中的成功经验。先前的研究发现，与非业务版本的SNOW-17相比，LSTM在使用亚利桑那大学SWE再分析数据集（Zeng等人，2018年）和Margulis研究小组的历史SWE再分析数据集（Margulis等人，2016年；Margulis等人，2015年）进行训练时，能够提供更准确的结果（Cui等人，2023年；Wang等人，2022年）。然而，并非总能获得流域级别的先行SWE数据，缺乏这些训练数据可能会影响模型性能（Cui等人，2023年）。大多数用于SWE估算的机器学习方法都是在站点尺度上开发和评估的（Liljestrand等人，2024年；Song等人，2024年；Steele等人，2024年；Thapa等人，2024年）。不过，空间连续的全流域SWE数据具有更广泛的应用价值（Duan等人，2024年），因为它可以整合到水文模型中，进而提高径流预报的实用性。如果LSTM能够在不需要先行SWE信息的情况下仅利用气象强迫和流域特征预测全流域SWE，那么它将为业务预报提供有价值的补充信息。

**4. 本研究的方法**
本研究测试了LSTM使用最佳模型配置（见2.3.2节）预测流域级别SWE的能力，并将其与SNOW-17模型进行比较，以评估其在业务中的应用价值和未来作为补充建模方法的潜力。我们的LSTM模型使用了与SNOW-17相同的业务气象输入数据，使SNOW-17可以作为参考对象。LSTM基于内华达山脉的SWE再分析数据集（Margulis等人，2016年）进行训练和评估，该数据集也用于评估SNOW-17模型，为两者之间的比较提供了依据。该再分析数据集结合了Landsat雪覆盖数据、气象再分析产品和雪模型结果，并在完全贝叶斯数据同化框架内进行整合，并通过内华达山脉的实地雪枕和雪道站点进行了验证（见2.2.2节）。该数据集在经过Airborne Snow Observatory（ASO）观测验证后被认为是最佳的历史SWE数据集（Ritchie等人，2025年；Yang等人，2023年；Painter等人，2016年）。虽然ASO提供了高分辨率、空间分布的雪数据，但对本研究来说，其空间和时间连续性的缺失使其不适用。同样，由于我们评估的是较大流域范围的SWE，且使用的是CNRFC定义的水文响应单元（图1），因此未采用点尺度观测数据。

**图1. 内华达山脉次级流域（羽毛河、美国河、图奥勒米河和梅尔斯德河）及其海拔分区：上层17区、中层20区和下层23区，以及插图中的加利福尼亚州和美国本土地区。**美洲地图上标记为阴影的区域并未包含在SNOW-17的SWE（ snow water equivalent，雪水当量）估算中，因此也不包括在本研究中——这些区域的详细信息列在附录的表S1中。本研究的目的是评估数据驱动的机器学习方法在SWE估算中的表现，并评估它们在实际应用中的潜力。首先，我们探讨了三种复杂程度不同的机器学习方法：多元线性回归（MLR）、随机森林回归（RFR）和长短期记忆网络（LSTM），用于估算内华达山脉的SWE。我们系统地评估了每种模型在模型复杂度与预测准确性之间的权衡。其次，我们将最优的机器学习模型与SNOW-17的操作参考数据集进行对比，以测试其性能。

本文中使用的缩写可以在附录（表S0）中找到。

**2. 方法**

**2.1. 研究区域**
本研究的研究范围包括美国西部内华达山脉的Tuolumne、Merced、American和Feather四个流域（图1）。这些位于内华达山脉西侧的流域是加州重要的水资源供应来源（Margulis等人，2016年）。出于操作建模的需要，加州内华达河流预报中心（CNRFC）将这些流域划分为低、中、高三个海拔区域，以捕捉由于海拔高度引起的水文气象变化。CNRFC为这四个主要流域的60个海拔区域生成SWE和土壤径流预报，并提供河流站点或水库入口处的流量数据。在我们的研究中，使用了这60个海拔区域，但根据1/3弧秒数字高程模型得出的平均海拔高度，我们将它们重新分类为低、中、高三个等级（附录，表S1）。

**2.2. 数据**

**2.2.1. 气象和其他输入数据**
每种海拔区域的日气温、降水量以及雨雪转换的高度（Z-elevation）被用作数据驱动模型的输入数据。这些基于空间平均值的海拔区域平均气象数据由CNRFC提供，也是他们用于SNOW-17和SAC-SMA模型的输入数据。温度数据来自校准记录分析（AORC）（Fall等人，2023年），该数据覆盖了美国大陆和阿拉斯加，采用0.008度的网格间距和一小时的时间分辨率。降水量数据来源于2003年之前的历史年平均降水量；2003年之后的降水量数据来源于国家环境信息中心的合作观测网络和自然资源保护服务的雪量遥感测量数据。Z-elevation数据来自欧洲中期天气预报中心（ERA5）的再分析版本。

模型的静态输入数据包括从1/3弧秒数字高程模型（美国地质调查局，2023年）获得的流域平均海拔、最低海拔和最高海拔。

**2.2.2. SWE再分析数据集**
建立数据驱动模型进行预测的过程包括将训练数据输入选定的模型，通过必要的模型参数调整来验证模型，最后使用适当的指标评估模型在未见过的数据集中的表现。本研究使用Margulis研究小组（Margulis等人，2016年）提供的SWE再分析数据集作为训练和验证数据集。内华达山脉的再分析数据涵盖了1985至2016年的年度数据，以每天为一个时间步长和90米的网格间距提供。再分析方法采用了粒子批量平滑（particle batch smoothing）方法（Margulis等人，2015年），该方法基于来自地表模型（LSM）的先前估计值、雪量消耗曲线以及遥感观测到的雪覆盖比例（fSCA）生成集合SWE估计值。先前估计值利用海拔和土地覆盖数据作为静态输入，而集合化的天气强迫数据来自北美陆地数据同化系统（NLDAS-2）产生的降尺度气象数据。分析中使用的LSM模型是简化的简单生物圈模型（Simplified Simple Biosphere model）第3版（Xue等人，2003年），其输入数据为从NLDAS-2降尺度后的每小时气象数据。LSM与Liston的雪量消耗曲线模型（Girotto等人，2014年；Liston，2004年）相结合。用于同化的fSCA估计值来源于Landsat 5专题制图仪、Landsat 7增强型专题制图仪和Landsat 8操作陆地成像仪。与传统从雪消失时期回溯到最大积雪量的SWE重建方法不同，这种基于粒子批量平滑的数据同化方案可以生成整个积雪和消融期间的SWE估计值，适用于没有明显积雪和融化阶段的地区（Yang等人，2023年）。这些每日90米网格化数据被转换为60个海拔区域的每日平均SWE值。

该数据集是迄今为止最全面的内华达山脉历史积雪重建成果之一，具有较高的空间和时间分辨率。根据与自动雪深观测（ASO）、雪径迹和雪堆的对比验证，它也被认为是内华达山脉中最佳的历史SWE数据集之一（Ritchie等人，2025年；Yang等人，2023年）。其方法已在其他地区成功应用，包括美国西部，其中最大积雪量与独立的现场测量和激光雷达数据高度相关（Fang等人，2022年），以及在数据稀少的高山亚洲地区，通过与加州Tuolumne河流域的ASO产品对比验证季节性SWE估计值（Liu等人，2021年；Margulis等人，2019年）。尽管该数据集质量优秀，但2016年之后的数据可用性无法保证，这限制了进一步训练和评估模型，而在非平稳气候和水文条件下这一点尤为重要。数据集中的潜在偏差可能来源于多个方面，包括基于Landsat的fSCA反演、气象强迫输入、模型参数和数据同化框架（Fang等人，2022年）。在森林地区，树冠遮挡限制了卫星传感器（如Landsat）准确获取fSCA的能力（Rittger等人，2020年）。然而，本数据集构建中采用的树冠调整方案提高了SWE估计的准确性（Yang等人，2023年）。此外，数据同化过程依赖于关于雪量消耗曲线和模型先验状态的假设，可能会引入系统误差。再分析中的偏差可能会传递给基于这些数据的模型。由于LSTM被训练来再现再分析结果，它可以继承该数据集中的系统偏差，但仅限于可以从模型输入中预测的偏差范围。然而，解决再分析数据集中的任何潜在偏差超出了本研究的范围。此外，任何继承的偏差与LSTM自身的模型偏差不同；因此，LSTM反映了再分析相关偏差和模型相关偏差的结合。

**2.2.3. SNOW-17模型**
本研究使用CNRFC提供的SNOW-17 SWE模拟结果来评估LSTM在SWE估算方面的能力。SNOW-17是一个基于过程的积雪和消融模型（Anderson，1973年），它根据降水和温度来估算积雪量和融雪量。这是一个温度指数模型，利用温度隐式确定雪-空气界面的能量交换。通常，在山区地形中，SNOW-17使用雨雪转换高度（Z-elevation）作为输入，将降水量分为降雨和降雪。本研究使用的SWE数据来自一个经过操作配置的SNOW-17模型。SNOW-17可以与SAC-SMA结合使用，以生成河流流量估计值，正如河流预报中心所做的那样。在实际河流预报中，预报员通常会手动调整SNOW-17的状态和计算结果，包括SWE，以改进流量预测并使模拟流量与观测结果一致（Anderson，2006年）。因此，SNOW-17模型参数被调整以匹配流量，而不是直接根据SWE观测数据进行校准，这可能会引入SWE偏差，从而影响流量预测（如蒸发蒸腾率和土壤湿度动态）。然而，本文使用的SNOW-17 SWE数据并未经过手动调整。

**2.3. 数据驱动模型**

**2.3.1. 多元线性和随机森林回归**
在本研究中，分别使用了多元线性回归（MLR）和随机森林回归（RFR）作为低复杂度和中等复杂度的数据驱动方法（Flora等人，2024年）。MLR是一种统计技术，用于确定多个解释变量和一个响应变量之间的线性关系。这里使用了`scikit-learn`库中的`LinearRegressor`模型进行MLR模拟（Scikit-learn，2023年）。随机森林回归（Breiman，2001年；Ho，1995年）是一种监督学习算法，通过自助法聚合（bootstrap aggregation）进行集成学习——通过有放回抽样生成随机数据子集。它可以解决回归和分类问题。该模型通过创建多个决策树（像一片森林）进行训练，每个树独立并行运行以生成目标变量的预测。最终预测是所有树决策的平均值。决策树的工作方式类似于实际树木，从根开始，根据输入变量和超参数确定的条件或阈值在决策节点处分支。超参数是控制学习过程展开的模型设置。这里使用`scikit-learn`库中的`RandomForestRegressor`进行RFR模型（Scikit-learn，2023年），并使用`RandomizedSearchCV`获取最优超参数（Scikit-learn，2023年）。超参数的详细信息见补充材料（表S2）。对于这两种模型，训练期是从1991年到2010年，测试期是从2011年到2016年。选择这一时期是为了将MLR和RFR与LSTM模型进行比较，通过交叉验证确定这是一个保守的评估集（详见第2.3.2节）。所有输入数据（如2.2.1节所述）都经过最大值和最小值归一化，以便将值缩放到0到1的范围内。MLR和RFR分别针对每个单独的海拔区域进行拟合。

**2.3.2. 长短期记忆网络**
长短期记忆网络（Long Short-Term Memory，LSTM）由Hochreiter和Schmidhuber于1997年首次提出，是一种循环神经网络（RNN）方法，它通过长短时记忆单元存储信息以进行未来预测。与难以保持长期依赖关系的标准RNN不同，LSTM使用门控机制来控制哪些过去的水文信息（例如SWE、土壤湿度）传递到下一个时间步长，或者哪些信息需要遗忘，从而使LSTM能够在更长的序列中保留水文记忆。在LSTM中，单元状态代表系统的长期记忆，隐藏状态代表系统的短期记忆。信息流由称为权重和偏置的可学习参数控制。权重值决定了输入或先前隐藏状态对当前计算的影响程度，而偏置则是可加性约束，用于调整激活函数，使模型更具学习模式的能力。在训练阶段，权重和偏置通过反向传播迭代调整，以最小化预测值与目标值之间的差异。有关LSTM架构的详细信息，请参阅Kratzert等人（2018年；Kratzert等人，2019年）的研究。

LSTM建模长期依赖关系的能力使其适用于具有长记忆状态的水文过程，如积雪和融化过程。LSTM中的信息流动或内部状态的更新通过三个门控机制调节——遗忘门、输入门和输出门——这些门控通过Sigmoid和双曲正切激活函数进行调制（Kratzert等人，2019年）。遗忘门决定了长期记忆中有多少百分比被记住或遗忘，这可能代表存储空间的减少或积雪的融化。输入门通过结合短期记忆和当前输入来更新当前时间步的细胞状态，从而创建新的长期记忆，这可能代表存储空间的增加或雪的积累。输出门使用来自长期记忆的输入来更新短期记忆，这可能代表最终的存储情况或净雪积累量。本研究使用了名为“Neural Hydrology”的机器学习Python代码，该代码使用LSTM进行降雨-径流建模（Kratzert等人，2022年）。LSTM神经水文学代码可在github上找到（Neural Hydrology，2023年）。这个神经水文学Python库包是为水文应用开发的，并已在先前的降雨-径流分析研究中使用过。LSTM神经水文学代码最初是为流量预测设计的，但在我们的案例中省略了流量方程，以便预测SWE（积雪水当量）。所有输入（在第2.1.1节中描述）都通过最大值和最小值进行了归一化，以将数值缩放到0到1之间；虽然归一化不是必需的，但通常被推荐。超参数通过迭代进行了调整，具体如下：隐藏层大小为128，学习率为0.001和0.0005，丢弃率为0.4，小批量大小为256，序列长度为365天（以捕捉输入和输出数据中的季节性）。LSTM使用Adam优化器进行优化，并采用RMSE损失函数。超参数的详细信息见补充材料（表S3）。

在机器学习中，将数据分为训练集、验证集和测试集是最佳实践。训练集用于学习数据中的模式和关系，验证集用于在调整（超）参数时评估模型性能，而测试集用于评估训练好的模型对未见过的数据的泛化能力。此外，通过交叉验证可以提高模型的鲁棒性，交叉验证涉及将数据集划分为多个训练/验证/测试子集。这种方法允许评估模型在不同数据分割下的性能差异，有助于模型的泛化，并确保每个数据点都被用于训练和评估，从而便于不同模型之间的公平比较（King等人，2020年）。LSTM模型的交叉验证使用了六组不同的训练、验证和测试期（表1）。在每组中，训练集使用了60%的数据，验证集使用了20%，测试集使用了20%。针对包含1991-2010年的训练数据、1985-1990年的验证数据和2011-2016年的测试数据的“set 3a”进行了详细分析（3.1 数据驱动模型之间的比较，3.2 SNOW-17与LSTM的比较，3.4 积雪融化持续时间和时机）；其余时期的总体结果在交叉验证部分3.3中介绍。选择这个集合作为保守的例子，与SNOW-17进行比较。

2.4. 数据驱动模型比较实验
为了系统地研究不同数据驱动模型对不同输入的敏感性，在测试期间（2011-2016年水文年）使用三种不同的实验（实验#1至#3）将MLR、RFR和LSTM模型与SWE再分析数据集进行了比较（表2）。这些实验测试了不同的模型参数和输入组合。评估不同的输入组合将有助于确定最适合进一步分析并与其他水文参考模型SNOW-17进行比较的模型和输入集。实验#1（实验#1）和实验#2（实验#2）测试了不同动态气象输入对模型性能的影响，实验#3（实验#3）测试了静态输入对LSTM模型的影响。由于静态特征在时间上本质上是不变的，因此不应用于回归模型MLR和RFR，因此未在实验#3中包含这些特征。

表2. 建模实验，用于测试MLR、RFR和LSTM的输入敏感性。P = 降水；累积每日时间步长，Cum P = 累积降水（水文年）每日时间步长，T = 温度，Z = 降水-雪线高度：日平均值。N/A = 不适用。
实验 MLR RFR LSTM
#1 动态：P, T, Z 动态：P, T, Z 动态：P, T, Z
输出激活函数：线性动态：累积P, T, Z 动态：累积P, T, Z 输出激活函数：线性
#3 否否否动态：P, T, Z 静态：高度（平均值、最大值、最小值）
输出激活函数：ReLU

实验#1旨在仅使用降水、温度和Z高度的动态输入来测试模型。为了使其输出与MLR和RFR的可比性，LSTM模型在输出层使用了线性激活函数。线性激活函数允许输出保持不受限制，而非线性激活函数会将输出限制在0到1或-1到1的范围内。由于SWE是一个累积变量，实验#2测试了累积降水作为输入的有效性，以替代每日增量降水。实验#2中的所有其他输入与实验#1相同。实验#3旨在研究静态输入（平均值、最大值和最小高度）在LSTM模型中的重要性。根据实验#1或#2的结果，降水可以是累积的或增加的。实验结果见第3.1节。

实验#1-2表明，在LSTM中使用的线性激活函数可能会产生非物理的负SWE输出。因此，为了与SNOW-17进行比较，在LSTM的输出层使用了“relu”激活函数，以将预测的SWE下限限制为零。然而，在LSTM实验#1-2中使用了线性激活函数，以确保与MLR和RFR的公平比较，因为后者模型没有内置机制来对其输出应用非线性激活函数。使用降水、温度和降水-雪线高度的动态输入以及平均值、最大值和最小高度的静态输入的LSTM结果包含在3.2 SNOW-17与LSTM的比较和3.3交叉验证中。

2.5. 数据分析和性能指标
整个SWE时间序列使用了Kling-Gupta效率（KGE）（Gupta等人，2009年）进行评估，这是一个在水文模型评估中流行的技能指标。它是一个多组成部分的技能评分，结合了相关性、平均偏差和变异偏差，并且对异常值和数据分布的变化具有相对较强的鲁棒性，适用于具有季节性的数据（Knoben等人，2019年）。KGE的范围是从-∞到1，接近1的值表示模型性能更好，大于-0.41的值表示模型性能优于平均流量基准（Knoben等人，2019年）。KGE的计算公式如下：
KGE = 1 − (r−1)^2 + (α−1)^2 + (β−1)^2
其中，Covso是模拟值和观测值之间的协方差，μs和σs是模拟值的平均值和标准差，μo和σo是观测值的平均值和标准差。

除了KGE之外，还计算了峰SWE的平均偏差。对于测试期间的每一年，通过将模拟峰值SWE与给定年份的再分析峰值SWE之间的差异除以再分析峰值SWE来计算归一化的平均偏差。然后对测试期间的所有年份的这个值进行平均，并以百分比表示。

2.6. 积雪融化 - 融化天数和融化时间
“融化天数”指标，即积雪融化的速度，是通过峰值SWE与积雪消失日期之间的差异来计算的。这里我们将积雪消失定义为剩余SWE小于8.8毫米的日期，在下一个冬季季节之前不再有额外的SWE积累。8.8毫米的SWE阈值对应于雪深约为2.5厘米的情况，此时雪覆盖分数接近零（Niu和Yang，2007年），以及研究区域的雪密度约为350千克/立方米（Zhao等人，2023年）。

“融化时间”，即积雪何时融化，是通过SNOW-17/LSTM的积雪消失日期与再分析之间的差异来计算的，例如[Reanalysis] – [SNOW-17]或[Reanalysis] – [LSTM]。正值表示在再分析中积雪融化得更早，负值表示在模型中积雪融化得更早。在给定年份中，无论在SNOW-17、LSTM还是再分析中都没有雪的高程区域被从计算中剔除。

3. 结果
在以下部分，我们展示了三种数据驱动模型的比较结果，LSTM模拟与SNOW-17在SWE估计和积雪融化时间方面的比较，以及模型对不同时期的敏感性分析。

3.1. 数据驱动模型之间的比较
为了评估使用数据驱动方法预测SWE的能力，我们比较了三种不同复杂性的数据驱动技术——MLR、RFR和LSTM，以评估模型复杂性与其SWE估计潜力之间的平衡。在这项评估中，我们首先使用标准的时变输入（降水、温度和Z高度）配置每个模型（实验#1）。然后，我们测试了使用累积降水作为输入的影响，以提高技能（特别是对于较简单的数据驱动模型）（实验#2）。之后，我们测试了向LSTM中添加静态变量的影响（实验#3）（表2）。

在评估的三种数据驱动模型中，LSTM对输入数据的选择最为敏感（图2）。MLR在所有实验中的表现始终最差。在实验#1中，当仅使用每日温度、降水和Z高度作为每个模型的输入时，所有三个模型的表现通常都优于气候学平均基准，KGE值大于-0.41，尽管存在一些空间上的性能差异（图2）。Knoben等人（2019年）表明，KGE值大于-0.41表示模型改进了平均基准。然而，较简单的MLR和RFR模型的中位KGE估计仅略优于气候学基准。

基于KGE，通过在实验#2中使用累积降水作为输入，MLR和RFR有所改善，而在LSTM中中位KGE略有下降（图2）。由于LSTM在使用累积降水作为驱动因素时性能下降，我们返回到使用每日增量降水。在实验#3中添加静态输入（每个子流域的平均值、最大值和最小高度）显著提高了LSTM的性能（图2）。此外，不同流域之间的分数差异也减小，表明在各个高度区域的性能更加一致（图2）。

在三个实验中，虽然LSTM在大多数情况下的表现都优于MLR和RFR，但所有三个模型在较高海拔区域的SWE预测都更为准确，而较低海拔区域的表现最差（补充材料，图S1）。在较高海拔地区，降水主要以雪的形式降落，因此降水量和SWE之间的关系更为明确；而在较低海拔地区，降水可以是雨或雪。实验#3中LSTM在较低海拔区域的改进最大，因为高度信息对LSTM模型非常重要。在每个实验中，MLR和RFR中的SWE预测都捕捉到了SWE的季节性变化，但在较短的时间尺度上产生了波动，导致SWE时间序列出现不现实的情况，具有较大的日变化（例如Hetch Hetchy流域；补充图表S2）。这些波动大致跟随温度和降水的变化，表明MLR和RFR模型对这些输入的微小变化非常敏感。根据结果，我们可以确定LSTM在所有三个实验中的表现都优于MLR和RFR，无论是在其综合KGE得分（图2）还是在其捕捉年度和亚/季节性变化的能力方面。因此，从现在开始，我们将在分析中仅关注实验#3中的LSTM作为数据驱动模型。

3.2 SNOW-17与LSTM的比较
为了提供LSTM性能的背景，接下来我们将详细比较LSTM模拟结果与CNRFC为1991–2010/1985–1990/2011–2016年训练/验证/测试期间生成的SNOW-17模拟结果（表1，集合‘3a’）。总体而言，LSTM的KGE得分优于SNOW-17（图3）。所有流域的综合KGE中位数分别为SNOW-17的0.45和LSTM的0.76（图4）。尽管两种模型在不同海拔区域的表现存在差异，但在SNOW-17中这种差异更为明显。尽管在两种模型中，高海拔区域的KGE得分都高于中等和低海拔区域，但SNOW-17的低海拔区域表现特别差（图3，图4）。此外，在每个海拔区域内，SNOW-17的KGE在不同流域间的差异更大，表明其性能的变异性更高（图4）。SNOW-17的高海拔、中等和低海拔区域的KGE中位数分别为0.74、0.45和0.04，而LSTM分别为0.86、0.78和0.66（图4）。

3.2.1 下载高分辨率图像（177KB）
3.2.2 下载全尺寸图像

图3. SNOW-17和LSTM的KGE指标

3.2.3 下载高分辨率图像（94KB）
3.2.4 下载全尺寸图像

图4. 按海拔区域划分的SNOW-17和LSTM的KGE指标（高海拔 = 高海拔区域，中等海拔 = 中等海拔区域，低海拔 = 低海拔区域，全部 = 所有海拔区域。每个箱形图表示每个海拔类型的KGE分布——17个高海拔区域、20个中等海拔区域和23个低海拔区域。）

在偏差方面，与再分析相比，SNOW-17和LSTM总体上都高估了SWE，所有流域的综合平均偏差中位数分别为20.4%和28.7%（图5，图6）；这两个值代表了各海拔区域的标准化平均SWE偏差的中位数（基于测试年份的平均值），计算方法为模拟值与再分析值之间的差异。然而，SNOW-17的偏差符号变化更大，且在不同海拔区域间的差异也更大，而LSTM的偏差则更为一致（图5，图6）。在两种模型中，高海拔区域的中位平均偏差相似，中等海拔区域的中位平均偏差最大。SNOW-17的高海拔、中等和低海拔区域的平均偏差分别为15%、58%和-3.41%，而LSTM分别为15%、33%和28%（图6）。Feather流域东北部的某些区域在两种模型中都有较高的正偏差（图5）。

图5. 与再分析相比，2011–2016年度SNOW-17和LSTM的峰值SWE偏差（%）。所有三个图表中的颜色范围限制在±100，但一些偏差超过了这个范围。

图6. 按海拔区域划分的SNOW-17和LSTM的峰值SWE平均偏差（%）。每个箱形图表示每个海拔类型的偏差分布——17个高海拔区域、20个中等海拔区域和23个低海拔区域。

Hetch Hetchy流域的一个代表性时间序列也说明了SNOW-17和LSTM对峰值SWE的低估或高估情况，其中Hetch Hetchy高海拔、中等和低海拔区域的峰值SWE平均偏差分别为-0.82%、16.2%和54.43%，以及-34.8%、-50.6%和15.2%（图7）。其余区域的时间序列见补充材料（图表S3）。

3.3 交叉验证
LSTM的准确性在某种程度上受到训练/验证/测试期间的影响（图8）。偏差的性质，即低估或高估，在不同的交叉验证期间是变化的（图8a）。尽管LSTM的偏差存在变化，但在同一测试期间内的不同海拔区域是一致的——2011–2016年的数据被高估（图8a - 交叉验证‘1b’和‘3a’，表1），而1985–1990年的数据则被略微低估（图8a - 交叉验证‘2b’和‘3b’，表1）。KGE的准确性在不同交叉验证期间变化较小（图8b）。然而，高海拔区域始终显示出更高的KGE和较低的偏差，而低海拔区域则显示出较低的KGE和较高的偏差（补充图表S4a和S5a）。

3.4 雪融持续时间和时间
理解雪融时间的动态对于做出关于水库管理、洪水风险和水资源的明智决策至关重要。在本小节中，我们测试了LSTM与SNOW-17模型在雪融持续时间（雪融化所需的时间）和时间（雪何时融化）方面的表现。

在2011–2016年的测试年份中，SNOW-17的雪融持续时间较短（融化速度更快），总体上雪 disappearance得更早（图10，图11）。两种模型的雪融持续时间都比再分析短（图10）。所有流域的综合雪融中位时间分别为SNOW-17的60天、LSTM的65天和再分析的78天（图10）。在两种模型和再分析中，低海拔区域的雪融速度最快，而高海拔区域的雪融时间最长（图11）。高海拔区域雪融时间较长是预期之中的，因为高海拔地区积雪更多，融化需要更长的时间。一些低海拔区域在干旱年份（尤其是2015年）没有积雪。

图10. 不同海拔区域的雪融持续时间（SNOW-17、LSTM和SWE再分析）。融化天数仅包括有积雪的年份。

图11. 相对于再分析，不同海拔区域的雪融时间。正值表示模型中的雪融化得更早，负值表示模型中的雪融化得更早。

SNOW-17的低海拔、中等和低海拔区域的雪融时间比再分析分别提前了15天和6天（图11）。因此，SNOW-17比LSTM提前9天融化。相对于再分析，LSTM和SNOW-17在不同海拔区域的融化时间差异很小。在LSTM中，低海拔区域的跨流域雪融时间差异更大，表明这里的变异性更大。SNOW-17中提前融化的雪量和时间会影响峰值流量的体积和时间，这对RFC的流量预测有影响。关于雪融速率和峰值SWE时间的额外结果见补充文件（图表S7和S8）。

4. 讨论
4.1 数据驱动的SWE估算模型
在测试的数据驱动机器学习模型——MLR、RFR和LSTM中，LSTM在SWE估算方面表现更优秀。LSTM在理解气象强迫（温度和降水）与SWE之间的关系方面更强的能力，而海拔高度为模型提供了额外的重要输入。这种优势源于LSTM捕捉时间依赖性的能力，使其能够学习过去的降水和温度序列如何影响积雪积累和融化，这是一个本质上非线性的过程。LSTM的激活函数和内部记忆（单元状态）使模型能够学习SWE对天气输入的非线性延迟响应。虽然RFR模型也能学习非线性过程，但它没有LSTM那样的门控单元状态记忆来捕捉时间依赖性。此外，LSTM可以使用静态变量进行训练，因此可以在不同地点之间传递知识，使其比其他数据驱动方法更具通用性。至于MLR，结果表明SWE动态本质上既是非线性的又是滞后性的，因此MLR不是一个合适的模型，但在这里仅作为基线进行了展示。

LSTM在增量降水输入（实验#1）下的表现更好，而不是累积降水输入（实验#2），这可能是因为它能够在其记忆状态中保留SWE的时间信息。相比之下，累积降水对MLR和RFR有益，因为它们没有内在的记忆机制，可以通过捕获积累历史来记住SWE的量——特别是在寒冷的高海拔地区，大部分降水处于冻结状态。另一方面，LSTM可能基于温度和海拔高度将降水非线性地分为降雨和雪，这一点与再分析训练数据相关。然而，当年度后期物理过程失效时（例如，随着雪的融化（SWE减少），LSTM在处理逐渐增大的数值时可能会遇到困难，此时输入的降水值仍然相对较高。

4.2 模型性能
在SWE再分析数据集上训练和评估的数据驱动LSTM在整个流域范围内的SWE估算方面表现出强劲的整体性能。LSTM的KGE技能得分始终高于CNRFC的运行中的SNOW-17模型，后者作为参考模型。然而，LSTM对训练、验证和测试时期的选择很敏感，尤其是在偏差方面，而SNOW-17在不同年份的偏差相对一致。但在SNOW-17模型中，不同流域之间的最大SWE偏差（SWE）和KGE（雪水能量比）的变异性更大。两种模型都显示出明显的海拔依赖性差异：在所有研究时期，高海拔区域的KGE值都高于低海拔区域。先前的研究也表明，与SNOW-17相比，LSTM模型的预测精度更高（Cui等人，2023年；Duan等人，2024年），并且LSTM在高海拔地区以及最大SWE较大的情况下表现更好（Duan等人，2024年）。在高海拔地区，由于温度较低，降水更有可能以固态形式存在并在冬季滞留在积雪中，这使得降水量与SWE之间的关系更加稳定。在中等海拔地区，这种关系较难建立；而在最低海拔地区，由于积雪的短暂性以及雨雪分界的复杂性，这种关系最为不稳定（Wang等人，2019年）。然而，低海拔区域的融雪对径流的贡献相对较小，因为这些地区的积雪量远少于上游流域。因此，SNOW-17在低海拔区域的性能对实际径流预测的影响较小。

尽管SNOW-17和LSTM模型的校准和训练方法有所不同——SNOW-17旨在优化径流预测，而LSTM则基于再分析数据训练以预测SWE——但比较它们的SWE估计结果在操作层面上仍然具有实用性。在以降雪为主的流域中，准确的SWE预测对径流预报至关重要。虽然径流不是本文的主要关注点，但改进SWE估计值后，如果河流水文预报中心能够适当采用这些改进结果，将有助于提升径流预报的准确性。在这种情况下，SNOW-17的模拟结果可作为评估LSTM模型的准操作参考，因为两者都依赖于预报人员实际使用的相同气象驱动因素和流域边界。

在分析的不同时间段中，2011年至2016年这段时间对LSTM模型来说特别具有挑战性。这一时期的预测偏差较大，很可能是因为2012年至2015年该地区发生了严重的干旱（Bales等人，2018年）。LSTM模型难以准确预测这一时期的情况，因为它在训练数据中并未遇到过如此干旱的年份。Feather河东段观察到的高偏差可能反映了这一问题。Feather河东段还可能受到内华达山脉北部边缘地形降水特征的影响（Neiman等人，2013年）；然而，研究这些局部天气效应超出了本文的范围。

对于数据驱动型模型而言，训练、验证和测试周期的选择对其性能有显著影响，因为训练数据的质量会影响模型的预测结果，包括偏差。物理模型通常具有更系统性的偏差，因此这种敏感性较低。理论上，如果数据驱动型模型在训练期间经历过某种特定情景，它应该能够在新测试期间预测到相同的结果。基于大规模多样化数据集训练的LSTM模型可以降低这种敏感性，并提高模型的泛化能力（Kratzert等人，2024年）。因此，在我们的研究中，随着更多训练数据的获得，模型的敏感性预计会降低，性能也会提升。

训练数据集的时间范围通常受长期观测数据的限制，而空间范围的扩展（在可行的情况下）可以增加训练数据的多样性和代表性。例如，在我们的研究中，如果使用内华达山脉其他山区的额外海拔数据进行更长时间的训练，并考虑植被或土壤类型等流域特征，可能会提高LSTM模型的性能。然而，除了获取长期训练数据的技术挑战外，时间非平稳性也是一个问题——气候变化、土地利用或水文过程的变化会改变变量之间的分布和关系。尽管扩展训练数据的空间范围无法完全抵消时间非平稳性的影响，但可以让模型接触到更广泛的水文气候条件，从而部分缓解这一问题。鉴于数据可用性是数据驱动型模型的限制因素，特别是在天气和气候变化的情况下，理解驱动这些变化的物理过程同样重要。这种过程层面的理解不仅有助于模型开发，还有助于解释和预测超出历史观测范围的变化。

在所分析的不同时间段中，LSTM模型对2011–2016年这一时期的预测尤为困难，这可能与2012–2015年的历史干旱有关（Bales等人，2018年）。LSTM模型难以准确预测这一时期，因为它在训练数据中缺乏类似极端干旱的情况。Feather河东段的高偏差可能反映了这一点。此外，该地区还可能受到内华达山脉北缘局部天气模式的影响（Neiman等人，2013年）；不过，研究这些局部天气效应超出了本文的研究范围。

对于数据驱动型模型来说，训练、验证和测试周期的选择对其性能有显著影响，因为训练数据的可用性会影响模型的预测结果，包括偏差。物理模型通常具有更系统性的偏差，因此这种敏感性较低。理论上，如果数据驱动型模型在训练期间经历过某种情景，它应该能够在测试期间预测到相同的结果。基于大规模多样化数据集训练的LSTM模型可以通过跨流域的信息传输来减少这种敏感性，从而提高模型的泛化能力（Kratzert等人，2024年）。因此，在我们的研究中，随着更多训练数据的获取，模型的敏感性预计会降低，性能会得到改善。

训练数据集的时间扩展往往受长期观测数据可用性的限制，而空间扩展（在条件允许的情况下）可以增加训练数据的多样性和代表性。例如，在我们的研究中，如果使用内华达山脉或其他山脉的更多海拔区域数据进行更长时间的训练，并考虑植被或土壤类型等流域特征，可能会提高LSTM模型的性能。然而，除了获取长期训练数据的挑战外，时间非平稳性也是一个问题——气候变化、土地利用或水文过程的变化会改变变量之间的分布和关系。尽管扩展训练数据的空间范围不能完全弥补时间非平稳性的影响，但它可以帮助模型暴露在更广泛的水文气候条件下，从而部分缓解这一问题。由于数据可用性是数据驱动型模型的限制因素，特别是在天气和气候变化的情况下，理解驱动这些变化的物理过程同样重要。这种过程层面的理解不仅有助于模型的稳健开发，还有助于解释和预测历史观测范围之外的变化。除了理解物理过程外，了解基于过程的模型中的不确定性对于水文预测也至关重要。作为基于过程的模型，SNOW-17受到驱动数据、模型结构和参数化的不确定性影响。了解偏差的发生情况和程度，以及驱动数据和积雪积累/消融关系中的差距所在，对于改进SNOW-17等模型的操作性预报至关重要。

**结论**

在这项研究中，我们测试了三种数据驱动型SWE预测模型，并将其中表现最好的模型与一个实际运行的基于过程的雪水模型进行了比较。在所有测试的数据驱动型模型中，长短期记忆网络（LSTM）的表现优于其他模型。LSTM的误差也低于CNRF预报员使用的未经调整的SWE估计值，这表明像LSTM这样的数据驱动型模型可以为SNOW-17的操作性预报提供有价值的补充信息。LSTM通过从再分析数据中学习SWE与其他预测变量（如海拔）之间的关系，成功建立了它们之间的联系。虽然SNOW-17在不同测试时期的偏差相对稳定，但其不同流域之间的偏差变异较大。两种模型在高海拔地区的表现都优于低海拔地区，但SNOW-17的差异更为显著。

这项研究对比了数据驱动型模型和基于过程的模型，突显了两种方法的互补性。将它们并行评估有助于我们更好地理解数据驱动型模型中的误差。将这两种方法结合到水文预测系统中，可以改善SWE预测，进而提高径流预报的准确性。随着大气和水文过程在空间和时间上的非平稳性增加，预测难度也在上升，因此整合数据驱动型方法为水文预测提供了新的途径。因此，水文领域应当充分利用这些工具来支持水资源管理的决策制定。例如，本研究的结果可能对美国国家海洋和大气管理局（NOAA）开发下一代国家水文模型有所帮助，该模型采用了基于过程和机器学习的方法进行水文预测。

**作者贡献声明**

- Engela Sthapit：撰写——审稿与编辑、原始草案撰写、方法论制定、数据分析、概念化
- Peter Fickenscher：撰写——审稿与编辑、数据管理
- William Ryan Currier：撰写——审稿与编辑、方法论制定、数据分析、概念化
- Mimi Rose Abel：撰写——审稿与编辑、项目监督、资源协调、项目管理、方法论制定、数据分析、概念化
- Rob Cifelli：撰写——审稿与编辑、项目监督

**资金支持**

本研究得到了《两党基础设施法案》的支持，并部分由NOAA合作协议NA25OARX405C0057-T1-01提供资助。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部