基于贝叶斯神经网络生成的水库入库时间序列的场景缩减方法比较

时间：2026年5月28日

来源：PLOS One

编辑推荐：

处理预测入库流量中的不确定性是水库最优洪水控制面临的主要挑战。基于场景的随机控制方法通过从概率模型中生成多个入库时间序列来应对此问题，每个序列代表一种可能的未来情形及其关联的可能性。然而，使用过多的场景会增加计算复杂性，而过少则可能损害其代

**摘要翻译**：
处理预测入库流量中的不确定性是水库最优洪水控制面临的主要挑战。基于场景的随机控制方法通过从概率模型中生成多个入库时间序列来应对此问题，每个序列代表一种可能的未来情形及其关联的可能性。然而，使用过多的场景会增加计算复杂性，而过少则可能损害其代表性。尽管场景生成和缩减这两个关键步骤已在其他领域被广泛研究，但其在水库入库动态过程中的应用仍然有限。本研究开发并应用了一种概率数据驱动模型，具体是贝叶斯神经网络（BNN），用于场景生成。虽然该模型由于数据稀缺在预测入库洪峰方面存在局限性，但其有效捕捉了入库时间序列的时序依赖性，并通过纳什-西特克勒夫效率系数（NSE）和均方根误差（RMSE）等指标实现了较高的短期精度，尽管性能随预测时长增加而下降。针对场景缩减，评估了在其他领域广泛使用的四种距离度量，即曼哈顿距离、欧氏距离、Wasserstein距离和能量距离。实验结果表明，能量距离最能保留完整场景集的统计特性，其次是曼哈顿距离和欧氏距离。然而，在保留对洪水控制至关重要的极端入库场景方面，基于自定义指标（使用l1-范数测量原始场景集的包络大小），曼哈顿距离和欧氏距离优于其他方法。在场景缩减方法的计算效率方面，能量距离的计算成本最高（复杂度为m的二次方，m为缩减后的场景数），而Wasserstein距离的计算复杂度随m线性增长。在所用示例中，当缩减后的场景数m ≥ 30时，缩减集足以捕捉极端值。考虑到保留极端值与计算成本之间的权衡，研究推荐使用曼哈顿距离和欧氏距离，并设置m = 30，作为水库入库场景缩减的实用选择。

**论文解读**：
基于模型的水库最优洪水控制通常通过模型预测控制（MPC）实现，其需要根据入库流量预测来预测性调节出库流量。因此，控制运行中的不确定性主要源于受气象不确定性驱动的入库流量预测不确定性。MPC中的入库不确定性可以通过有限数量的可行未来场景来表示。因此，场景生成方法旨在生成能够代表这种不确定性的离散时间序列。对于基于随机优化的MPC方法，场景数量对计算复杂性有深远影响；因此，理想的情况是在减少场景数量的同时，保留足够数量的场景以“充分”代表入库不确定性。水文变量的场景生成传统上依赖于统计时间序列模型，如自回归移动平均（ARMA）和自回归积分滑动平均（ARIMA），或基于历史入库流量的扰动。这些方法可以再现一般的变异性，但常常过度简化不确定性，例如通过添加随机噪声或均匀扰动模型预测。场景树也曾被用于表示分支的未来入库流量，但对于水库洪水控制而言，其多步入库轨迹导致高维度，使得场景树在计算上不切实际。近期，数据驱动模型在各个领域被探索用于生成真实的场景。深度学习架构，如卷积神经网络（CNN）和长短期记忆网络（LSTM），可以模拟非线性模式，但通常应用于确定性设置。像分位数回归深度神经网络（QRDNN）这样的概率方法可以捕捉条件分布，但它们在维持多步预测的时序依赖性方面存在困难。相比之下，像高斯过程和贝叶斯神经网络（BNN）这样的概率模型直接估计预测参数分布，使其非常适合生成既保留不确定性又保留时序依赖性的入库场景。尽管少数研究已将BNN应用于水文预测，但将其用于生成多步概率入库场景仍然不常见，留下了本研究旨在填补的方法论空白。需要明确的是，将确定性数据驱动模型扩展到产生概率多步场景，将需要额外的随机机制，例如贝叶斯层、集成采样或生成组件，并将大大扩展方法论范围。由于本研究的目标是评估概率模型的适用性——而非比较不同的深度学习架构——研究人员专注于BNN作为概率方法的代表性。尽管大量场景可以更好地代表入库不确定性，但使用过多会使随机优化在计算上不可行。场景缩减技术通过选择一个较小的子集来解决这个问题，该子集仍然保留原始场景集的关键属性。基于聚类的方法，如k-means和k-median，以及基于Wasserstein距离的前向或后向选择方法，已在随机优化中得到广泛探索。电力和能源系统的研究表明，k-means可以提供稳健的性能，而基于Wasserstein距离的前向选择通常能产生更低的运行成本。尽管取得了这些进展，但在水文应用方面仍存在重要差距。大多数研究集中在欧氏距离和Wasserstein距离上，而曼哈顿距离和能量距离的研究则少得多，尽管它们也是广泛使用的距离度量。此外，很少有研究考察哪种距离度量最能保留极端入库事件，这是水库洪水控制的基本要求。现有评估通常嵌入在完整的随机优化实验中，这使得难以单独评估缩减方法本身的性能。因此，有必要独立评估缩减后的场景集在多大程度上保留了原始入库集合的统计特征和极端事件行为。这在实际洪水控制中尤其相关，因为弹性水库运行依赖于准确捕捉入库不确定性及其极端值。本研究选择曼哈顿、欧氏、Wasserstein和能量距离，是因为它们被广泛使用、计算效率高，并且在概念上代表了两大类场景缩减方法，即基于向量距离的方法和基于概率分布距离的方法。它们的效率和透明性使其适用于洪水控制设置中的重复在线缩减，其中实时计算至关重要。尽管存在更先进的场景缩减算法，例如层次聚类或熵正则化最优传输算法，但这些方法最终依赖于本研究中使用的基础距离度量。因此，专注于曼哈顿、欧氏、Wasserstein和能量距离是合适的，因为它们构成了广泛缩减算法的核心指标，并为评估场景缩减对水库入库集合的适用性提供了有意义的基础。据研究人员所知，尽管贝叶斯神经网络（BNN）已在一些水文预测研究中应用，但其在多步概率水库入库场景生成中的使用仍然有限，并且先前没有工作评估其在更广泛的场景缩减框架内的适用性。本研究的创新性不在于引入BNN本身，而在于首次系统地结合了（i）概率数据驱动的入库场景生成和（ii）针对水库洪水控制需求对多种场景缩减技术的定量比较。特别是，以前的研究没有在明确关注极端事件保留的情况下联合考察这些组成部分，而这在操作上至关重要却很少被评估。本研究解决了两个尚未充分探索的方面：（i）缩减场景集的统计代表性，以及（ii）它们保留强烈影响水库洪水控制决策的极端入库轨迹的能力。具体贡献如下：应用和评估贝叶斯神经网络以生成概率多步入库场景，并检查其不确定性和时序依赖性的传播；使用旨在评估统计保真度和极端事件保留能力的指标，对四种广泛使用的场景缩减距离度量——曼哈顿距离、欧氏距离、Wasserstein距离和能量距离——进行系统比较；在考虑计算效率、统计质量和极端场景保留之间平衡的情况下，为选择适当的缩减场景数量以及适用于实时水库洪水控制的距离度量提供实用指导。本文分为四个部分。方法部分介绍了场景生成和缩减的方法论，重点关注蒙特卡洛Dropout BNN和四种距离度量。结果与讨论部分详细介绍了案例研究区域并展示了实验结果，包括基于l1-范数评估缩减场景集以强调极端场景的纳入。最后，结论总结了本研究的关键发现和意义。

本研究利用蒙特卡洛Dropout BNN进行场景生成。BNN是一种基于贝叶斯推断训练的人工神经网络，用于推导概率输出。在BNN中，传统在深度神经网络（DNN）中被视为确定性的每个参数都遵循特定的概率分布。BNN在训练过程中学习参数的概率分布p。然而，估计参数的后验概率在计算上非常耗时。因此，研究采用了蒙特卡洛Dropout方法。通过随机停用一些节点（Dropout）并重复随机Dropout（蒙特卡洛模拟），生成多个估计输出。这些多个输出就是不确定的场景。输出的概率分布可以被估计。因此，蒙特卡洛Dropout BNN可以被视为对每个参数使用伯努利分布的BNN。鉴于Dropout技术实现简单，该方法复杂度低，能够实现快速近似。

场景缩减方面，设原始场景集为Y，包含n个场景，每个场景是一个时间序列向量，具有相应的概率；缩减场景集为X，包含m个场景（通常m << n），具有相应的概率。场景缩减是找到能充分代表Y的X的技术。这里的“代表”通过某种距离度量的接近程度来衡量，缩减方法旨在最小化集合之间的距离。因此，选择合适的场景间距离度量至关重要。通常，场景（xi和yi）之间的距离通过曼哈顿距离（l1度量）和欧氏距离（l2度量）计算。由于它们在捕捉分布形状差异方面优于其他选择，Wasserstein距离和能量距离都是用于比较概率分布的成熟度量。这两种经典度量分别使用各场景对应时间序列向量之间的l1-范数和l2-范数定义。使用曼哈顿距离和欧氏距离的场景缩减利用了广泛使用的聚类算法。原始场景被划分为m个簇，簇质心作为缩减场景。k-median是使用曼哈顿距离的代表性聚类算法，而k-means是使用欧氏距离的流行聚类算法。由于使用l1-范数，k-median对于具有许多异常值和非对称分布的数据更有效。然而，与k-means聚类相比，其计算复杂度是一个缺点。另一个区别是，k-median中簇的质心是簇中场景的逐元素中位数，而k-means的质心是逐元素均值。每个质心都是一个缩减场景。因此，缩减场景集包含从连续空间中选出的新时间序列集，该方法也称为连续场景缩减。连续场景缩减提供了从连续集的无限多选项中找到缩减集的灵活性。然而，它也存在关于新场景有效性的问题。例如，在水文场景中，保留每个场景内的时序依赖性至关重要。因此，在聚类中选择每个场景子集的逐元素中位数或均值可能会削弱原始场景中存在的时序依赖性的保留。因此，研究人员修改了算法，通过识别最接近每个簇质心（中位数或均值）的原始场景来选择缩减场景。每个簇Ci的质心概率定义为该簇中场景数量占原始场景总数的比例。相反，Wasserstein距离和能量距离可用于计算两个概率分布之间的距离。Wasserstein距离可以表示为使两个概率分布相同所需的最小（传输）成本。能量距离被定义为另一种度量。对于这两种距离度量，场景缩减涉及在原始场景集中找到一个子集X，以最小化Wasserstein距离或能量距离。Wasserstein距离的精确计算在计算上很复杂。然而，该问题可以简化为一个（混合整数）线性规划。而基于能量距离的场景缩减在计算上相比Wasserstein距离处于劣势，因为它需要求解带线性约束的二次规划。值得澄清的是，不同的距离度量使用不同的算法。这是因为每种距离度量具有不同的性质。曼哈顿距离和欧氏距离是向量之间的距离，即每个场景之间。而Wasserstein距离和能量距离可以在概率分布之间度量，即原始场景集的分布和缩减场景集的分布。这种差异导致使用不同的算法。对于曼哈顿距离和欧氏距离，可以利用场景之间的距离对场景进行排序（即聚类），并在每个簇中选取一个代表性场景。相比之下，可以通过Wasserstein距离或能量距离比较原始场景集和缩减集的相似性。场景可以逐个添加到最初为空的缩减集中，每次选择最小化两个分布之间距离的场景（前向选择）。另一方面，场景可以从缩减集中移除，该集最初包含所有原始场景（后向选择）。或者，可以通过计算所有可能的缩减场景组合并选择与原始场景距离最小的组合，直接找到缩减场景集。当前向或后向选择方法应用于曼哈顿或欧氏距离时，显然在每一步只能选择最接近均值的场景。此外，无法使用Wasserstein或能量距离应用任何聚类算法。因此，一旦选择了距离度量，我们只有有限的可行算法。此外，鉴于无法为所有距离度量应用相同的算法，最好为每种距离度量应用“最佳”或“广泛使用”的算法，以确保公平比较。这就是为什么研究对欧氏距离使用k-means，对曼哈顿距离使用k-median，对Wasserstein距离和能量距离使用前向选择的原因。

本研究将提出的方法应用于韩国锦江流域的大清水库入库流量时间序列，以评估其实际适用性。大清水库维护着广泛的观测数据库。质量控制的逐小时数据由管理机构韩国水资源公团（K-water）提供。尽管大清水库有足够的数据，但由于上游水位站观测有限，研究人员使用了2011年至2020年的逐小时数据。由于预测模型仅使用观测入库数据难以准确识别拐点，因此将上游水位作为额外的输入特征，以帮助模型隐式地学习流量趋势变化。共有22个上游水位站，但研究期间只有16个站的观测数据可用。与没有缺失值或异常值的水库数据不同，官方水位数据可能包含缺失值和异常值。为生成和缩减洪水事件场景，理想情况下应仅使用洪水事件的数据。但由于只有九个洪水事件可用，数据不足以训练BNN模型。因此，使用2012年9月至2020年的所有逐小时水库入库和上游水位数据来训练和验证BNN模型。尽管观测到的极端事件数量有限，概率场景集合仍能通过随机变异性覆盖类似峰值的入库行为。验证使用了20%的数据。请注意，由于模型在每个时间步仅使用当时可用的信息生成完整的多步入库场景，因此必须保留的时序依赖性是每个场景向量内部的，而不是数据集中不同时间戳之间的。因此，在可用数据集中，主要洪水事件分布在观测期的开始和中期。为确保训练和测试数据集都包含显著的洪水动态，研究人员有意将这些极端事件分布在不同的集合中。这种特定的划分允许模型从2012-2020年期间的严重洪水中学习，同时在来自2011年和2012年初的不同、未见过的极端事件上进行严格评估，从而防止数据泄漏并有效评估模型的物理泛化能力（即后报）。

蒙特卡洛Dropout BNN模型用于场景生成，具有与预测范围N对应的N个输出节点。水库入库、空间平均降雨量以及在自回归窗口B期间的16个上游水位站的水位构成输入特征，因此输入节点数为B × 18。虽然较小的N可以增强BNN模型性能，但与较大的N相比，它在退水时间框架中损害了水库洪水控制优化的有效性。因此，在本研究中，N设置为12。深度神经网络模型的性能严重依赖于超参数。概率入库模型的超参数使用树状Parzen估计器（TPE）算法进行优化，这是一种广泛使用的贝叶斯优化方法。使用验证集的均方根误差（RMSE）作为目标函数。所有优化均使用Optuna库实现。为减少需要优化的超参数数量，使用了早停技术，当验证损失在一定数量的epoch内没有改善时终止训练过程。同时，还优化了过去值的数量B。最优超参数如表1所示。最优自回归窗口为24，导致总输入节点为24 × 18。最优dropout率为10%，隐藏层有512个节点，学习率为0.0005，批次大小为64。选择的激活函数是修正线性单元（ReLU）。BNN的结构如图3所示。

使用均方根误差（RMSE）和纳什-西特克勒夫模型效率系数（NSE）评估蒙特卡洛Dropout BNN模型，这两个指标广泛用于评估水文预测模型的可靠性。在水库洪水控制中，减少显著偏差（如峰值入库）比最小化细微差异更重要。因此，RMSE似乎是一个合适的指标，因为它更强调较大的误差。对于测试事件，RMSE为112.5 m³/s，考虑到整个期间的平均入库为106.2 m³/s，峰值入库为3557.0 m³/s。此外，NSE为0.736，通常认为NSE在0.65或以上为“良好”，0.75以上为“非常好”。总体而言，RMSE和NSE表明该模型具有可靠的性能。具体而言，BNN模型随着预测时长增加（即增加RMSE，降低NSE）显示出水文预测性能下降。例如，1小时预测的RMSE为83.3 m³/s（NSE：0.885），而12小时预测的RMSE增至149.4 m³/s（NSE：0.432）。然而，对于峰值入库的预测性能也下降了。该问题在许多关于洪水入库预测的研究中也很明显。峰值入库预测的局限性主要归因于训练数据的限制，即缺乏足够高入库的数据。尽管研究利用了整个期间的数据进行模型训练，但大多数情况下的峰值远小于图5中事件1和事件2所示。典型的入库模式表现为上游水位和入库量短暂小幅上升，然后逐渐下降。仅使用重大洪水事件（如测试事件）的数据训练BNN模型可能会增强对这些极端事件的预测精度。然而，由于样本量小，这会显著降低整体模型性能并损害其实用性。尽管峰值入库预测存在局限性，概率方法的一个关键优势是能够捕捉广泛的不确定性。例如，所有场景中事件1和事件2的最大入库分别为4393.9 m³/s和3065.2 m³/s。这表明，尽管预测的峰值入库（即场景的均值）——这将是典型确定性模型的输出——远低于观测值，但实际入库值落在预测范围的上限内或附近。这突出了保留极端场景的重要性，即使它们可能性低，也能有效捕捉洪水事件中的峰值入库。请注意，该预测范围代表在每个时间步所有生成场景的最大值和最小值定义的完整包络，而不是统计置信区间。此外，使用连续排序概率评分（CRPS）、预测区间覆盖概率（PICP）和分位数损失评估了BNN模型的概率性能。CRPS和分位数损失随着预测范围的延长而一致增加，正确地反映了随时间自然积累的不确定性。95%置信区间的PICP平均约为0.39，低于标称水平。这表明模型分散不足，可能是由于训练集低流量数据的主导地位使模型倾向于更窄的不确定性范围。然而，当考虑完整场景范围时，运行可靠性显著提高。最关键的是，对于总入库量（l1-范数），这是短期预测下水库洪水控制的关键因素，最小-最大PICP达到约0.85。这一发现再次强调了极端场景（上/下限）成功捕捉了操作风险空间，以及在场景缩减中保留包络大小的重要性。目前，模型使用标准MSE损失进行训练，RMSE进行验证，这隐含地假设了同方差性（恒定观测噪声）。该假设限制了模型捕捉数据依赖的随机不确定性的能力，导致预测区间分散不足，特别是在极端事件中通常方差会增加。为了从根本上改善概率性能，需要显式建模随机不确定性和认知不确定性的损失函数，例如高斯负对数似然（GNLL）。然而，同时估计均值和数据依赖的方差通常会增加优化复杂性，并需要大量数据以确保收敛稳定性。考虑到数据集中有限的洪水事件数量，研究人员通过采用标准MSE损失建立稳定基线来优先考虑模型的鲁棒性。

场景缩减方面，基于向量距离的方法（使用聚类算法）通过Python库scikit-learn实现。对于基于Wasserstein距离和能量距离的场景缩减，遵循文献[5]中的方法。如前所述，最终缩减场景xi被选择为最接近基于距离度量的簇质心，以确保xi属于原始场景集Y。这种方法与传统的基于聚类的场景缩减不同，因为它不使用每个场景簇的逐元素中位数（k-median）或均值（k-means）。原始场景集Y由1000个场景组成，以覆盖可能的不确定条件，每个场景由一个12维向量表示。该数量是基于初步测试经验性确定的；它足够大以捕捉预测不确定性并稳定经验分布，又足够小以保持后续场景缩减算法的计算成本可控。这些场景在每个时间步生成。考虑到每个场景的高维度和原始场景的大量，对Wasserstein距离和能量距离的场景缩减应用了简单的1步前向选择。此外，公式5和6中的参数p对这两种距离度量都设置为1。在事件1和事件2的每个时间步测试场景缩减在计算上非常密集，特别是由于能量距离的计算复杂性。因此，从每个事件中选取三个代表性点（案例1&4：上升，案例2&5：下降，案例3&6：稳定）进行检验。

当缩减场景数m = 10时，每种案例的场景缩减结果如图8所示。图中灰色实线指原始场景，蓝色实线说明缩减场景，蓝色实线的粗细代表每个缩减场景的概率。水库在洪水事件期间的水位和出库流量对上下游洪水条件有显著影响。此外，极端事件可能对大坝安全产生相当大的影响。因此，洪水场景缩减方法的一个关键标准似乎是是否包含了极端场景。从这个角度来看，曼哈顿距离和欧氏距离表现出优越的性能，其次是Wasserstein距离和能量距离。具体而言，当使用能量距离和Wasserstein距离时，稀疏的极端场景往往被排除。为了评估这一点，需要估计场景包络并将其大小与原始场景的包络大小进行比较。尽管由于可能存在交叉场景而难以估计精确的包络，但研究人员使用l1-范数近似包络大小。其中，l设置为1。上包络囊括了可能进入的最大入库流量，下包络囊括了最小入库流量。这些代表了以水库入库为函数的洪水风险空间，至关重要。此外，在短期洪水场景的背景下，预测总入库量可能比精确估计入库时间序列的每个元素更重要。由于所有入库元素都是正值，每个场景的l1-范数代表总入库量。传统的分布度量优先考虑整体统计拟合，可能会将罕见的极端事件作为异常值丢弃，而水库洪水控制需要明确意识到最坏情况的边界。因此，通过l1-范数定义的包络大小是衡量缩减场景集保留操作安全裕度能力的重要附加指标。因此，使用l1-范数是合理的。研究人员分析了对于五种不同缩减场景数（m = 10，20，30，40，和50）的包络体积差异。如图8所述，曼哈顿距离和欧氏距离即使在较小的m值下也能保留极端场景。例如，在案例3中，使用曼哈顿距离和欧氏距离获得的包络体积约为2.5 × 10^5，显著大于Wasserstein距离和能量距离获得的（均小于1.5 × 10^5），当m = 10时。能量距离倾向于更关注频繁出现的场景。随着缩减场景数m的增加，所有距离度量都包含更多的极端场景。结果表明，当m ≥ 30时，缩减场景集足以捕捉极端值。值得注意的是，该指标并不固有地偏好曼哈顿或欧氏距离。尽管它使用l1-范数估计总入库量，但这种使用在概念上不同于曼哈顿距离和欧氏距离在场景缩减中的应用方式，因此在比较所有四种距离度量时，性能差异不是先验预期的。

为了解为什么基于向量距离的度量（曼哈顿和欧氏）比概率度量更好地保留极端场景，必须审视各自的目标函数。基于向量距离的方法通过聚类算法实现，旨在最小化数据点的空间分散度。k-means（欧氏）和k-median（曼哈顿）的目标函数被定义为最小化簇内点到质心的距离之和。尽管k-median的l1-范数通常对异常值的敏感性低于k-means的平方l2-范数，但两种算法本质上都是空间划分方法。极端的洪水场景在几何上远离中心簇。为了通过两种范数最小化总聚合距离，算法很可能会选择靠近这些远点的代表性质心；否则，累积的空间误差将保持显著较高。相比之下，像Wasserstein距离这样的概率度量将每个场景的概率质量纳入成本函数。概念上，场景xi的成本贡献与概率加权的传输成本相关，即wi * d(xi, yj)，其中wi是原始场景yi的概率。由于极端洪水事件罕见，其关联的概率wi非常低（例如，wi << 1）。因此，即使几何距离d(xi, yj)很大，其对总概率成本的贡献也可以忽略不计。因此，概率算法倾向于“牺牲”这些低概率极端值的保留，以更好地拟合分布中心（均值）附近的高密度区域。

其他适合且广泛用于比较时间序列数据概率分布以及水文数据分布的指标是均值（μ）和标准差（σ）。这是因为入库时间序列的不确定性，例如模型不确定性的残差，已使用逻辑分布或正态分布建模，因此其统计量可以完全由均值和标准差描述。原始场景和缩减场景的均值和标准差对比如图10所示。关于场景均值，能量距离表现出与原始场景最接近的对齐，并且在均值平均绝对误差（MAE）方面最低。当m = 10时，其MAE为2.1 m³/s，当m ≥ 40时降至0.4 m³/s。欧氏距离表现出最大的差异，曼哈顿距离类似。值得注意的是，当m = 10时，曼哈顿距离均值的最大差异为3.5 m³/s，仅代表原始场景均值1045.3 m³/s的0.3%。在标准差方面，能量距离和欧氏距离显示出最小的差异。值得注意的是，与图10a中缩减场景均值与m没有明确关系不同，所有距离度量的标准差随着m的增加逐渐收敛到原始场景的σ。例如，Wasserstein距离标准差的MAE从11.6 m³/s降至3.8 m³/s。对于时间序列场景，时序相关性是除均值和方差外的一个关键特征。皮尔逊相关系数是量化两个变量之间线性相关性的广泛使用的统计量。变量p和q之间的线性关系被定义为协方差除以标准差的乘积。为了研究不同距离度量在多大程度上保留了预测入库的时序依赖结构，展示了逐元素相关性。左侧最远的面板显示原始场景集的逐元素相关矩阵，其他面板显示使用四种距离度量获得的缩减集的相关矩阵。使用能量距离获得的缩减集的相关结构与原始集具有最高的相似性，特别是在案例4中。相比之下，Wasserstein距离表现出最不同的相关结构，而欧氏距离与曼哈顿距离相似。为了进行详细比较，研究人员计算了原始场景时序相关性与缩减集相关性在不同缩减场景数（m = 10，20，30，40，和50）下的平均绝对差。如图12所示，能量距离表现出最小的差异，而Wasserstein距离表现出最大的偏差。如预期，差异随着缩减场景数m的增加而减小。虽然图11和12提供了视觉比较，但研究人员通过计算原始集与缩减集相关矩阵之间的差异来进一步量化时序依赖性的保留。他们采用了距离度量相关矩阵差的Frobenius范数（‖C_Y - C_X‖_F）作为结构发散性的指标。该指标量化了模型在多大程度上保留了预测范围内时间之间的时序相关性。表3总结了这些误差的平均值。能量距离产生的误差最小（0.69），表明其在保留原始场景复杂滞后依赖结构方面具有最高的保真度。Wasserstein距离显示出最大的偏差，证实了在图11中观察到的视觉差异。此外，为了明确评估滞后依赖性的保留，研究人员分析了自相关函数（ACF）。结果表明，所有度量似乎遵循相同的模式，但具有不同的值。能量距离（红色）最接近地追踪了原始的衰减模式，而曼哈顿（绿色）和欧氏（蓝色）距离也充分捕捉了相关性，尽管具有稍高的矩阵误差。

从计算的角度来看，能量距离表现出最高的复杂性和最低的效率。这是因为当应用简单的1步前向选择时，选择第i个场景需要求解n − i个二次问题。随着缩减场景数的增加，Wasserstein距离的计算时间线性增长（从11.8秒到82.3秒），而能量距离的计算时间呈二次方增长（从72.5到1787.3秒）。由于在纳入精确能量距离时对所有可能组合进行详尽探索，计算复杂度将呈指数级增长。其他距离度量由于具有不需要显式优化过程的高效算法，在计算上是高效的。对于曼哈顿距离和欧氏距离，计算时间相对恒定，无论m如何增加，曼哈顿距离约为4秒，欧氏距离约为4.5秒，如表4所示。

讨论部分总结了研究框架、发现和局限性。本研究通过应用贝叶斯神经网络（BNN）生成入库场景，建立了一个用于水库洪水控制的概率框架，并验证了其在捕捉入库时间序列时序依赖性方面的适用性。这里的特征包括时间相关性以及随着预测范围增加而出现的性能下降。蒙特卡洛Dropout BNN模型被发现能够有效生成不确定的入库场景，RMSE和NSE指标显示其具有合理的性能。在没有明确场景中元素间时序相关性的情况下，它再现了水文预测的特征行为，即性能随着预测范围增加而下降。然而，研究的BNN模型在准确预测峰值入库方面表现出局限性。局限性主要归因于用于训练的洪水事件数据不足。训练数据集主要由具有短暂小幅增加的“正常”入库组成。峰值入库等极端值位于数据分布的尾部，使得准确预测变得困难。当模型主要训练于较低的入库值时，它难以预测极端值，导致对较小流入的过拟合和对极端事件的欠拟合。因此，模型倾向于低估极端事件的均值。虽然在本研究的框架中，通过利用概率上限减轻了这种风险，但未来的研究可以旨在提高均值精度。潜在的方法包括采用迁移学习或多模型框架切换，以明确捕捉高流量动态。然而，这种架构上的增强超出了本研究的范围。此外，相对较低的95% PICP表明模型分散不足。这源于采用标准MSE损失，该损失隐含地假设同方差性，限制了对数据依赖的随机不确定性的捕捉。虽然异方差损失函数（例如GNLL）可以解决这个问题，但考虑到有限的数据集，研究人员优先考虑了模型的稳健性而非复杂性。因此，采用此类损失函数仍然是未来研究的一个有希望的方向，以进一步完善不确定性量化。尽管存在这些局限性，研究结果表明，实际的峰值入库成功地被捕捉在或接近上包络线下。这一观察强调了捕捉完整不确定性范围而非仅依赖均值的关键需求。因此，这验证了研究针对场景缩减的特定评估标准：某种方法能否有效保留这些极端场景（包络），以确保操作风险空间得到维持。

现有场景缩减方法的优缺点，特别是在距离度量方面得到了评估。性能通过三个标准评估：统计特性的保留、极端事件的包含和计算复杂性。使用能量距离的场景缩减在保留由BNN模型生成的原始场景集的统计特性方面表现出优越性能。基于能量距离的缩减场景最佳地保留了原始的时间相关结构。虽然所有距离度量都有效地保留了均值，但能量距离在均值和标准差指标上都实现了最小的MAE。对极端场景的考虑和分析对于洪水控制至关重要。原始场景的上、下包络之间的跨度代表了由不确定入库引起的洪水风险空间。为了考虑这种跨度，研究人员建议使用基于l1-范数的包络大小作为评估缩减场景的度量。就此而言，曼哈顿距离和欧氏距离表现出优越的性能。此外，在时序相关性和标准差方面，曼哈顿距离和欧氏距离表现出与能量距离相当的性能。在统计特性和极端场景保留方面，曼哈顿距离和欧氏距离之间没有观察到实质性差异。然而，从计算效率的角度来看，使用能量距离与其他距离度量相比表现出显著的局限性。即使只有10个场景，计算时间也超过一分钟，当m = 30时延长到大约12分钟。鉴于洪水控制的时间范围通常少于一小时，一个需要超过10分钟的场景缩减过程是不切实际的。这是因为由最优控制方法产生的控制输入由于对流域洪水条件的重大影响，不能直接应用于水库洪水控制。此外，该过程需要时间进行决策并与相关组织共享信息。因此，考虑到极端场景对最优洪水运行的重要性，曼哈顿距离和欧氏距离可以成为场景缩减合理且实用的选择。然而，当保留统计特性（如均值、标准差和时序相关性）优先于包含极端场景，且计算时间不是关键考虑因素时，能量距离可以是最佳选择。无论选择哪种距离度量，30个缩减场景在包含极端事件和保留统计特性方面都可以是足够的。尽管先前没有工作直接评估过用于水库洪水控制的场景生成和缩减方法，但类似的方法论框架已在电力需求和价格预测领域得到应用。在该研究中，基于能量距离的场景缩减已被证明比广泛使用的Wasserstein距离更有效地保留分布特性，尽管由于其二次规划公式而具有更高的计算成本。观察到可比的模式，即能量距离在水文场景中实现了最高的统计特性保留。然而，对于洪水控制，研究人员引入了一个非统计指标，该指标测量作为可能的入库量度量的场景包络。因此，根据针对应用程序定制的相关度量（例如，洪水风险与总入库量相关），区分场景缩减方法的性能非常重要。在研究的示例中，这表明曼哈顿距离和欧氏距离在保留极端入库事件特性方面优于其他度量，特别是对于较小的m。此外，通过明确评估洪水控制时间约束下的计算可行性，本研究表明能量距离可能不适用于快速实时应用，尽管它具有统计优势——这是文献[5]中未涉及的操作考虑。需要注意的是，研究对Wasserstein距离和能量距离采用了简单的1步前向选择方法。尽管由于其计算效率而被广泛使用，但该算法不能保证选择最优的缩减集。要找到最接近原始场景集的最优缩减集，必须探索所有可能的子集。这通常在计算上是难以处理的。然而，高性能计算和/或并行化技术的实施可能允许我们在显著减少计算时间的情况下，获得基于能量或Wasserstein距离的最优缩减集。该算法是否能提高这些距离度量的性能以及计算时间的减少是否实用，仍有待确定。

结论部分总结了研究的主要发现。本研究表明，贝叶斯神经网络（BNN）可用于有效生成概率洪水场景，同时捕捉入库时间序列的时序依赖性。对四种距离度量（即曼哈顿距离、欧氏距离、Wasserstein距离和能量距离指标）的比较评估表明，能量距离最佳地保留了统计特性，而曼哈顿距离和欧氏距离在保留极端入库事件方面更有效。与在其他应用中的广泛使用相反，Wasserstein距离在该时间序列时序依赖性重要的应用中没有提供实质性的优势。从实际角度来看，曼哈顿距离和欧氏距离在保留极端事件和保持计算效率之间提供了强大的平衡，使其适用于实时水库洪水控制。能量距离虽然在统计上更优，但随着缩减集中场景数量的增加，其计算规模扩展性差得多，因此对于时间敏感的操作可行性较低。本研究的主要局限性是，通过直接整合到水库洪水控制优化（如随机MPC）中，未测试保留极端场景的操作重要性。此外，分析基于有限数量的历史洪水事件，这可能影响研究结果的普遍性。未来的研究应将提出的场景生成和缩减框架整合到实时随机水库运行模型中以量化操作效益，探索结合能量距离的统计优势与曼哈顿或欧氏距离效率的混合方法，并使用更大、更多样化的洪水事件数据集评估性能以增强鲁棒性和可迁移性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部