利用 K-means 聚类算法重建激光雷达数字高程模型中缺失的水面高度数据，以用于水动力模拟

时间：2026年1月19日

来源：Water Research

编辑推荐：

准确的水面高程数据对水文模拟至关重要，但现有DEM数据在河流和河岸区域存在缺失或异常。本研究提出基于k-means聚类的DEM重建方法：通过滑动窗口优化识别河流与河岸点，采用逆距离加权重建河岸高程，并将河湖区域高程替换为邻近最小河岸高程。验证显示该方法能精准估计水面高程（R²=0.98），显著改善径流深度模拟结果。研究为数据稀缺地区的城市防洪决策提供了低成本解决方案。

摘要

精确的数字高程模型（DEM）数据对于可靠的径流过程水动力建模至关重要，尤其是在估算径流深度方面。然而，DEM数据在河流和湖泊表面以及河岸沿线存在固有的不确定性。为了解决这个问题，本研究提出了一种重建方法：使用k-means聚类算法识别河流和河岸位置，通过逆距离加权重建河岸高程，并用最低河岸高程替换指定范围内的河流和湖泊高程，从而估算水面高度。验证表明，估算的水面高度与观测值非常吻合（R² = 0.98），并且与历史正常水位相符，尽管在少数位置相对于历史最高水位略有高估。比较DEM重建前后的水动力模拟结果，由于未校正的负河流表面高度，河流储水量被高估，导致河流附近的径流深度被低估。总体而言，本研究提供了一种基于DEM数据估算水面高度的方法，为数据稀缺或存在不确定性的地区提供了更准确的径流模拟和城市洪水风险预测的参考。

引言

全球气候变化导致地区性极端天气事件频发，包括台风（Beirne等人，2021年）、干旱（Dai等人，2018a年；Sun等人，2024年；Wu等人，2023年）和极端降雨（King等人，2023年）。其中，由极端降雨引起的城市洪水和淹没对城市地区造成了重大的经济损失（Zheng等人，2024年）和潜在的环境污染风险（Han等人，2025年）。为了研究气候变化情景下降雨对区域洪水风险的影响，已经开发并应用了基于水文和水动力学的流域和城市洪水模型（使用浅水方程），以指导未来洪水缓解措施和政策的制定（Chen等人，2025年；Luo等人，2022年；Zheng等人，2024年）。浅水方程是从Navier-Stokes方程推导出来的，忽略了粘性项（即Euler方程），基于浅水假设（de Saint-Venant，1871年）。通常，流域或城市水动力模型可以采用动态波（完整的浅水方程）（Perrini等人，2024年；Shen等人，2024年）或简化近似方法，如扩散波（忽略惯性项）和运动波（忽略惯性和压力项）进行模拟（Jang等人，2018年；Sayama等人，2012年；Takasao和Shiiba，1988年）。无论使用哪种近似方法描述明渠或表面流动过程，由表面坡度驱动的重力项都不能被忽略，因此需要相对准确的高程数据。

近年来，LiDAR数字高程模型（DEM）提供了高空间分辨率（范围从5到30米）的高程数据（Parizi等人，2022年），使其成为区域径流模拟的常用工具（Li等人，2020年；Parizi等人，2022年）。然而，地形测量中常用的红外和近红外激光器发出的激光脉冲会被水体吸收或被水波反射，导致返回信号减弱甚至完全消失（Mandlburger，2020年；Yan等人，2019年）。因此，DEM数据在河流位置经常出现缺失值或异常值（提取后围绕零波动），而河岸DEM由于靠近水体而经常被低估（Khanh等人，2025年；Yan等人，2019年）。这些因素对河流和径流建模有重大影响，因为高程误差可能会传播到模拟的水深和淹没区域（Bates和De Roo，2000年；Fewtrell等人，2011年；Sanders，2007年）。因此，需要对水面和河岸的DEM数据进行估算和重建。

目前，在水文学、水利工程和水环境领域应用的DEM重建方法通常结合了现场观测、遥感观测和反演技术（Altenau等人，2017年；Bandini等人，2020年；Schumann等人，2009年）。这些数据随后用于推断河道形态和径流条件（Anees等人，2022年；Musaeus等人，2024年；Pan等人，2016年），为后续的水文和环境建模提供了基础。然而，卫星遥感受到空间分辨率、图像中的云层覆盖和光照条件的限制（Dai等人，2018b年），而无人机遥感技术在估算大规模高程数据时需要大量人力并成本较高。因此，需要寻找更简单、低成本的方法来估算和重建河流和河岸的高程。

数据驱动和物理驱动的方法可以利用高程数据的内在数学逻辑作为DEM预处理的替代或补充策略（Pan等人，2019年；Shin和Paik，2017年）。数据驱动的DEM预处理方法因其计算成本低而得到广泛应用，包括水平整技术（例如提取和填充）（Lindsay和Creed，2005年）、空间滤波（Kvamme，2021年；Liu和Lim，2018年）、迁移建模（Bieger等人，2015年）和多源数据融合（Huang等人，2023年；Okolie和Smit，2022年）。尽管这些方法在特定场景下可以实现DEM校正或河道识别，但它们通常对数据质量要求高，对多个模型参数敏感，并且在复杂地形中的适用性有限（Bieger等人，2015年；Paiva等人，2011年；Sangireddy等人，2016年；Sanzana等人，2017年）。这促使人们探索其他数据驱动的替代方法。

鉴于DEM数据集中的河流高程存在固有的不确定性及其与周围陆地高程的显著差异（Khanh等人，2025年），这种差异可以通过无监督学习技术来识别和利用，特别是基于特征相似性对高程数据进行分类的聚类算法（Dafir等人，2020年；Pérez-Suárez等人，2018年）。聚类通常包括划分聚类、层次聚类、基于模型的聚类、基于密度的聚类等（Kaur等人，2024年）。基于密度的聚类和基于模型的聚类对数据有基本假设，在某些情况下可能无法有效分类所有值（McNicholas，2016年；Xing等人，2023年）。目前尚不确定DEM数据的高程分布是否符合这些方法的假设。通常使用模糊聚类算法（如C-means算法）来识别具有过渡特征的类别（Arrell等人，2007年）。相比之下，K-means算法通过最小化内部方差提供了一种简单、有效且广泛采用的划分聚类方法，从而提供清晰的聚类边界（Sinaga和Yang，2020年；Teimoori等人，2023年）。先前的研究已经使用K-means对DEM数据进行地形分类（Iwahashi等人，2018年）或校正高程值（Fuss等人，2016年）。K-means方法可以根据相似性识别样本特征并将其分组（Liu等人，2010年；MacQueen，1967年），从而利用水影响产生的异常值特征来识别DEM数据中的河流点。同时，河水水位通常不会超过陆地高程。可以假设河水水位等于最近河岸的高程来估算河流高程。这一原则与结合遥感图像和DEM数据来估算河流高度的方法一致（Tseng等人，2016年）。

基于上述考虑，本研究采用k-means算法识别河流区域并使用陆地DEM数据估算河流高程。它检验了在不同滑动窗口配置下的河流位置识别和高程估算结果，并将结果与实际观测值进行比较，以确定本研究的最优估算条件。最后，进行了一项水动力模拟案例研究，讨论了DEM数据重建前后径流模拟的差异。本研究提供了一种低成本、直接的方法来估算河流和湖泊的水位，为径流过程的水动力模拟提供了边界数据支持。

研究区域

京都市位于京都盆地，该盆地地形多样，包括山脉、丘陵、平原、湖泊和河流。这种多样的地形为展示研究方法的可行性和普遍性提供了理想的环境，是识别河流流域和基于DEM数据估算河流表面高程的绝佳研究区域。具体来说，京都市（东经135°45′，北纬35°00′）位于日本关西地区。它被山脉环绕

河流和河岸位置数量及高程值的分布

通过使用不同的滑动窗口大小识别数据集中的河流点和河岸点，图2展示了数据点数量的变化。显然，直接过滤河流点时，滑动窗口大小的变化不会影响过滤结果（图2a，c）。然而，使用k-means方法进行过滤时，将滑动窗口大小增加到500米会导致标记的河流位置数量增加。

方法的优点和应用价值

本研究旨在无需其他数据（如观测到的河流水位）的先验知识即可校正高程数据。考虑到计算成本和识别要求，本研究没有使用先前研究中的计算值（如地形坡度、局部凸度、平面曲率或表面纹理）来进行聚类识别（Arrell等人，2007年；Iwahashi等人，2018年）。相反，本研究直接基于原始DEM高程数据进行聚类识别

结论

本研究提出了一种专为水动力应用设计的DEM数据预处理方法。通过使用k-means聚类在滑动窗口约束下识别河流点，该算法生成的河流和湖泊位置在视觉上与缺失的河流和湖泊数据的空间分布相似。河流和河岸高程得到了重建，估算的河流高程通常接近历史正常水位。使用这些数据进行的水动力模拟

CRediT作者贡献声明

刘丽明：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，资源准备，方法论，研究经费获取，正式分析，数据管理，概念化。小柴隆弘：撰写 – 审稿与编辑，监督，概念化。和田惠子：撰写 – 审稿与编辑，监督，概念化。陈曦：撰写 – 审稿与编辑，资源准备。张嘉琪：撰写 – 审稿与编辑，概念化。松井春树：撰写 – 审稿与编辑，