美国北卡罗来纳农工州立大学(North Carolina A&T State University)的 Mulham Fawakherji、Jeffrey Blay、Matilda Anokye、Leila Hashemi-Beni 等研究人员在《Scientific Data》期刊上发表了名为 “DeepFlood for Inundated Vegetation High-Resolution Dataset for Accurate Flood Mapping and Segmentation” 的论文。这篇论文在洪水监测与管理领域意义重大,为精准绘制洪水地图、评估洪水影响提供了关键的数据支持和技术参考,对灾害应对、城市规划以及生态环境研究等多个方面都有着不可忽视的价值 。
研究背景
洪水,作为全球范围内最频繁且具破坏力的自然灾害之一,正严重威胁着人类的生命安全、基础设施以及生态环境。在过去的五十年间,洪水造成的财产损失和人员伤亡数量急剧上升,仅在 2016 年,就有超过 7400 万人受到洪水影响,4720 人丧生,经济损失更是超过 5700 万美元。如此严峻的形势下,快速且准确地评估洪水的范围和严重程度,成为了有效开展灾害应对、制定减灾规划以及合理分配资源的关键所在。
早期的洪水测绘方法主要基于全球阈值法,利用合成孔径雷达(Synthetic Aperture Radar,SAR)图像进行洪水测绘时,通过设定一个特定的阈值,依据反射率数值来区分洪水淹没区域和非淹没区域。然而,由于 SAR 图像的复杂特性,仅依靠单一阈值来准确检测洪水并非易事。为此,研究人员不断探索各种阈值算法,像基于区域差异的算法,以及大津法(Otsu)和熵阈值法等自动阈值算法,同时还将变化检测方法与阈值法相结合,在一定程度上提高了洪水检测的有效性。但这些方法存在明显的局限性,它们高度依赖专家知识,并且在处理卫星图像时需要进行大量的预处理工作,在不同的场景下缺乏良好的可转移性和可复用性。
随着深度学习技术的兴起,洪水测绘方法迎来了重大变革。卷积神经网络(Convolutional Neural Networks,CNNs)展现出了强大的能力,它能够直接从原始数据中自动学习复杂的空间模式和语义特征。借助大规模的标注数据集,深度学习算法可以有效地提取具有区分性的特征,进而准确地对受洪水影响的区域进行分类。深度学习在洪水测绘中的应用,显著提高了测绘的准确性、可扩展性和效率,让洪水测绘系统能够更好地适应不同的环境条件、传感器特性以及时间动态变化。
不过,深度学习在洪水测绘中的成功,在很大程度上依赖于高质量训练数据集的支持。这些数据集是训练和评估深度学习算法的基础,为算法提供了从遥感数据中准确识别洪水模式的关键知识。一个全面且标注精确的洪水数据集至关重要,它直接关系到深度学习模型在实际应用中的性能和可靠性。
目前已有的洪水测绘数据集虽然各有特点,但都存在一定的缺陷。例如,欧洲洪水数据集(European Flood Dataset)包含了 3710 张与 2013 年中欧洪水相关的图像,但其缺乏地理参考信息,且洪水场景的多样性有限;世界洪水数据集(WorldFloods Dataset)涵盖了 422 张洪水范围地图和原始的 13 波段哨兵 - 2(Sentinel - 2)图像,但它并非多源数据,并且由于云层覆盖的影响,洪水范围的标注存在不一致的问题;全球洪水数据库(Global Flood Database)虽然是一个多源数据库,但它的洪水数据在空间和时间分辨率上不够高,难以精确捕捉局部或快速演变的洪水事件。此外,光学和雷达卫星遥感在城市洪水测绘中也面临挑战,如卫星遥感图像受重访限制,常用数据源空间分辨率较低,处理雷达数据需要专业知识和算法等。而航空遥感虽然具有一定优势,但像 FloodNet 数据集却没有地理参考信息,不利于与其他数据集成进行综合的洪水测绘和分析。
在这样的背景下,开发一个高质量、多模态且标注详细的洪水数据集迫在眉睫,这正是本文研究的出发点。
研究方法
- 研究区域选择:研究主要聚焦于美国北卡罗来纳州,该地区极易遭受洪水侵袭,尤其是那些存在大量淹没植被的区域。研究选取了北卡罗来纳州的六个不同区域,这些区域分别受到了飓风马修(Hurricane Matthew)和飓风佛罗伦萨(Hurricane Florence)的严重影响。其中,格里夫顿(Grifton,勒努瓦县和皮特县)、金斯顿(Kinston,勒努瓦县)和普林斯维尔(Princeville,埃奇科姆县)受飓风马修影响;伊丽莎白敦(Elizabethtown,布莱登县)、华盛顿(Washington,博福特县)和伦伯顿(Lumberton,罗伯逊县)则受飓风佛罗伦萨影响。这两场飓风对美国东南部造成了严重破坏,为洪水分割研究提供了典型案例。
- 数据收集:研究人员收集了高分辨率的灾后航空影像,这些影像来自有人驾驶和无人驾驶平台,覆盖了受飓风影响的多个研究区域。比如,在普林斯维尔,2016 年 10 月飓风马修引发洪水期间,北卡罗来纳州应急管理部门(NCEM)使用 Trimble UX5 固定翼无人机收集了影像,其空间分辨率高达 2.6 厘米;在格里夫顿和金斯顿,美国国家海洋和大气管理局(NOAA)遥感部门在 2016 年 10 月 7 - 16 日期间捕获了大量航拍照片;在伦伯顿,2018 年 9 月飓风佛罗伦萨过后,使用 DJI M600 无人机收集了影像,分辨率达到 1.5 厘米。此外,研究人员还从 Sentinel - 2 获取了光学图像,从 Sentinel - 1 地面范围检测(GRD)获取了 SAR 图像,并从阿拉斯加卫星设施获取了 Sentinel - 1A 单视复数(SLC)数据,以生成 SAR 分解图像。为确保数据的相关性和覆盖范围,Sentinel - 1 雷达图像和 Sentinel - 2 光学图像都在航空图像采集的同一天或前后两天内获取。
- 数据预处理:针对不同类型的图像,研究人员采取了不同的预处理步骤。对于光学图像,首先要生成正射影像,这一步骤可以对航空 RGB 图像进行几何校正,使其具有统一的尺度,为后续的精确空间分析奠定基础。对于 SAR 图像,需要对相应的 Sentinel - 1 SAR VV 和 SAR VH 波段进行滤波处理,确保数据处理的一致性和可比性;接着进行斑点滤波,以提高数据质量;此外,利用 Sentinel - 1 SLC 图像进行 SAR 分解,可以获取洪水影响区域内不同散射机制的详细信息。在 Sentinel 应用平台(SNAP)中对 SLC 图像进行预处理时,需要导入数据、应用轨道文件、进行辐射和地形校正,并使用改进的 Lee 滤波器,以获得所需格式的数据。对于光学 Sentinel - 2 图像,则需要进行云掩膜处理,去除云层覆盖对分析的影响,保证后续分析中使用的是可靠的无云像素数据。
- 半自动掩模生成:数据集创建的最后一步是掩模生成,目的是将 RGB 图像中的每个像素分类为四个关键类别,包括开放水域(如河流、湖泊或积水区域)、干燥植被(未受洪水淹没的植被区域)、淹没植被(受洪水影响,出现淹没或饱和迹象的植被区域)以及其他(包括建筑物、道路等非水和非植被特征区域)。掩模生成过程分为两个主要步骤,首先利用预训练的深度学习模型进行自动掩模生成,研究使用了 ArcGIS Pro 中的高分辨率土地覆盖分类分割模型,该模型基于 UNet 架构,在 2013/2014 年 NAIP 土地覆盖数据集等数据上进行训练,能将光学图像初步分割为 9 个类别,之后再根据研究目的重新分类为 4 个类别。然后进行手动校正,由专家对自动生成的掩模进行微调,确保标注的准确性,特别是对于淹没植被区域等容易出现误判的区域,手动干预尤为重要。最后,使用 ArcGIS Pro 中的工具对每个类别的多边形进行标注和处理,生成最终的栅格掩模,并将每个类别导出为单独的 shapefile 文件,以便进一步分析和集成到数据集中。
研究结果
- 数据记录:DeepFlood 数据集及其辅助数据可从 figshare 云存储平台公开获取和下载,数据集中的每个项目都遵循标准化的命名约定。数据存储在多个文件夹中,光学文件夹包含飓风马修和佛罗伦萨过后的洪水后光学航空图像,分辨率分别为 25 厘米和 15 厘米;GEOTIFF MASK 文件夹包含地理参考的 TIFF 图像形式的标签掩模;SENTINEL_1 文件夹包含 SAR 分解、SAR_VH 和 VV 波段以及水指数数据;DEM 文件夹包含每个标注数据收集站点的数字高程模型(Digital Elevation Model,DEM)数据;SLOPE 文件夹包含根据 DEM 数据生成的坡度图像;SHAPEFILES 文件夹包含标签多边形 shapefile 文件;SENTINEL_2 文件夹包含每个区域的 10 米分辨率光学 Sentinel 2 图像;Tiles 文件夹包含从地图生成的图块,且进一步分为光学、掩模、SAR VV 和 SAR VH 等子文件夹。
- 技术验证:研究人员使用由大自然保护协会(the Nature Conservancy)和亚利桑那州立大学生物多样性成果中心(Arizona State University Center for Biodiversity Outcomes)创建的参考洪水范围地图,对飓风马修和佛罗伦萨的最终标签掩模进行了定量评估。将数据集中的标签重新分类为洪水(淹没植被和开放水域)和非洪水(干燥植被和其他)两类,然后将数据集中的洪水区域与参考洪水区域进行叠加,结果显示不同研究区域的叠加百分比在 87% - 96% 之间,表明数据集具有较高的空间准确性。
- 数据集效用:研究人员通过训练不同的深度学习模型,使用不同的输入表示来验证数据集的效用。结果发现,在不同的架构和输入配置下,数据集的可用性有所不同。UNet 和 UNet++ 模型在分割精度上表现出色,优于 PSPNet、VNet 和 AttUNet 等模型。当在 RGB 图像基础上添加 SAR 数据时,尤其是对于 UNet 和 UNet++ 模型,分割性能显著提升。数据集的平均交并比(mean Intersection over Union,mIoU)值在 43.2% - 72.4% 之间,其中使用包含 SAR 数据的 UNet 和 UNet++ 模型时,mIoU 值最高,表明该数据集适用于多模态数据融合任务。不同土地覆盖类别的交并比(IoU)值显示,“淹没植被” 类别的 IoU 值在不同模型和配置下有所变化,在 UNet 和 UNet++ 模型中,该值在 43.6% - 79.1% 之间,说明数据集能够较好地捕捉淹没植被区域的复杂性;而 “开放水域” 类别的 IoU 值相对较低,在 39.0% - 66.9% 之间,这表明在准确描绘开放水域区域方面,数据集还存在一定的改进空间。此外,UNet 和 UNet++ 模型在精度和召回率方面表现良好,精度值在 75.8% - 93.9% 之间,召回率在 73.0% - 93.6% 之间,这进一步证明了数据集在训练强大的语义分割模型方面的有效性。
- 土地覆盖分析:研究人员利用美国国家土地覆盖数据库(National Land Cover Database,NLCD)对研究区域的土地覆盖类型分布进行了分析。结果显示,在所有研究区域中,木本湿地(即淹没植被区域)和森林占比较大,分别为 35% 和 13%,其次是耕地,占 22%,开发建设区域占 14%。不同区域的土地覆盖类型存在显著差异,例如,伊丽莎白敦的木本湿地占比最高,约为 55%,而华盛顿的木本湿地占比仅约 18%;华盛顿的开放水域占比最高,约为 45%;格里夫顿的耕地占比最高,约为 36%;金斯顿的开发建设区域占比最高,约为 20%。
研究结论与讨论
DeepFlood 数据集为洪水测绘和分割提供了一个全新的、高质量的多模态数据集,它包含高分辨率的有人和无人驾驶航空影像以及 SAR 影像,并对淹没植被等关键区域进行了详细标注。通过对不同语义分割架构在该数据集上的评估,验证了其在灾后洪水测绘场景中的可用性和有效性。数据集的多模态特性,结合 RGB 和 SAR 数据,能够更好地捕捉不同土地覆盖特征,为遥感研究和应用的发展做出了重要贡献。
然而,该数据集也存在一些局限性。在使用过程中,需要注意 Sentinel - 1 SAR 图像(10 米分辨率)和 RGB 图像(25 厘米像素分辨率)之间的空间分辨率差异,尤其是在进行多模态和多分辨率数据源的对齐和集成时。此外,像干燥植被和淹没植被之间的混合类区域,也为进一步改进分割技术提出了挑战。而且,目前的研究尚未基于特定的景观覆盖类型或洪水严重程度级别对数据集进行单独评估,这是未来研究可以深入探索的方向。
总体而言,DeepFlood 数据集在洪水监测、灾害应对、城市规划、环境监测以及风险评估等多个领域都具有广泛的应用前景。它为开发和测试新的语义分割算法和机器学习模型提供了重要的基准,有助于推动洪水测绘技术的不断发展,提高人类应对洪水灾害的能力,对保障人民生命财产安全和生态环境稳定有着重要的意义。