NCC-FDM：一种基于频域扩散模型的水下图像增强方法，该方法通过非物理域的颜色校正来驱动图像处理过程

时间：2026年2月10日

来源：Journal of Visual Communication and Image Representation

编辑推荐：

水下图像增强双阶段扩散模型研究。提出非物理色彩校正驱动的频率域扩散模型NCC-FDM，通过快速光学波补偿与灰度世界法消除颜色偏移，再基于离散小波变换构建低频分量条件扩散模块，并设计跨空间维度的混合高频增强模块（HHEM）恢复细节。联合噪声预测、高频特征匹配与图像重建损失实现协同优化。实验表明该方法在四公开数据集上显著提升图像质量。

郭广林|梁秀曼|刘振东|于海峰

华北科技大学电气工程学院，中国唐山063210

摘要

水下环境具有光吸收和散射的特性。在这种环境中捕获的图像通常会遭受多种退化问题，如颜色偏差、模糊、细节丢失和低对比度，这些问题进一步严重干扰了下游的水下视觉任务。为了解决水下图像增强中的挑战，我们提出了一种基于非物理颜色校正的频域扩散模型（NCC-FDM）。该模型将非物理颜色校正与条件扩散模型相结合。首先，我们设计了一个非物理颜色校正阶段（NCCS），以快速处理水下数据集中的严重颜色偏移。通过快速光学波补偿和灰度世界方法的结合应用来校正图像颜色偏差。其次，我们考虑了水下图像中高频图像和低频图像之间的不同退化程度。我们设计了一个基于离散小波变换的频域条件扩散模型来处理经过颜色校正的图像的低频成分。提出了一个混合高频增强模块（HHEM），以恢复图像中的细节和结构信息。该模块分别增强不同空间维度的高频成分。增强基于高频成分中信息和噪声比例在不同空间维度上有所不同的原理。最后，我们设计了一个联合损失函数来优化频域扩散模型。联合损失函数包括噪声损失、重建损失和高频损失。在四个公开的水下数据集上的综合评估表明，所提出的NCC-FDM算法在视觉质量和评估指标方面都取得了出色的性能。

引言

水下成像是获取海洋信息的关键途径，在海洋探索和发展中发挥着不可或缺的作用。然而，复杂的水下环境会对图像质量造成多种干扰[1]。水对不同颜色波长的选择性衰减会导致颜色失真，而水生微生物和悬浮颗粒的光吸收效应及散射会降低图像的亮度和对比度。从退化的水下图像中提取有意义的信息极具挑战性，这直接阻碍了水下考古[2]、海底测绘[3]、海洋生物学研究[4]和水下物体检测[5]等任务的进展。因此，水下图像增强技术的研究具有重要的学术和实际价值。

近年来，水下图像增强方法可以分为两类：传统算法和深度学习方法。传统算法进一步包括物理方法和非物理方法。物理方法如颜色校正[6]和暗通道先验[7]，非物理方法如白平衡算法[8]和直方图均衡[9]。传统的物理成像方法基于水下光学物理模型，通过反向求解目标反射率和透射率等参数来消除水散射和吸收的干扰，恢复物理上合理的清晰图像。而非物理算法则直接调整像素值或进行域变换，专注于优化图像对比度、颜色和细节以增强视觉效果。传统算法所需的训练数据量较少，从而节省了计算资源。然而，传统算法依赖于先验知识，使得它们在复杂的退化场景中容易发生细节丢失和过度增强。

第二类是深度学习方法。典型的方法包括卷积神经网络（CNNs）、生成对抗网络（GANs）和扩散模型。卷积神经网络（CNNs）[10]通过卷积和池化层提取图像特征，同时通过权重共享减少计算负载。CNNs可以利用大型配对的水下数据集学习退化图像与其真实对应图像之间的映射关系[11]。随后，将Transformer的注意力机制引入CNNs中。注意力机制[12]根据输入内容动态调整焦点，显示出对复杂关联信息的更强适应性，并在捕捉全局图像关系方面具有优势。生成对抗网络（GANs）[13]的原理涉及以对抗方式训练两个网络：生成器和鉴别器。生成器学习生成真实数据，而鉴别器学习区分真实数据和合成数据。最终，生成器产生的样本与真实数据分布非常接近。然而，CNNs和Transformer容易受到训练样本的限制，难以超越数据分布并生成多样化的结果。GANs往往存在生成多样性不足和由于对抗训练不平衡而导致生成内容失真等问题。除了上述主流框架外，其他先进的计算机视觉模型也为水下图像增强提供了潜在的解决方案。DeepLab[14]是一种先进的语义分割框架，它采用孔状卷积和孔状空间金字塔池化（ASPP）来捕获多尺度上下文信息。其提取丰富多尺度语义特征的能力可以应用于水下图像增强任务，特别是在处理退化区域时保持细粒度细节。EfficientNet[15]是一系列高效的卷积神经网络，通过复合缩放网络深度、宽度和分辨率来实现更高的准确性和效率。其平衡的架构设计和出色的参数效率使其成为水下图像恢复的有前途的骨干网络，特别是在计算资源有限的场景中。

扩散模型[16]由于其稳定的训练过程、强大的数据分布适应能力和丰富的生成多样性，在图像生成领域迅速崭露头角。利用其独特的逐步去噪概率生成机制，这些模型可以稳定地学习数据分布，同时生成保持感知真实感的丰富多样内容。扩散模型在捕获复杂模态图像数据中的细微特征方面表现出色，生成高保真度和细节丰富的图像。作为扩散模型的一个重要扩展和高级形式，条件扩散模型[17]引入了条件约束机制。与传统依赖随机噪声生成无方向样本的扩散模型不同，它们可以根据用户定义的条件精确生成满足特定类型、类别或风格要求的输出。这一特性增强了它们在图像恢复和风格转换等实际应用中的实用性。然而，由退化图像引导的扩散模型在训练过程中常常表现出严重的颜色偏差，这显著影响了生成图像的质量。

尽管条件扩散模型在水下图像增强（UIE）领域展现出独特优势，但扩散模型的时间迭代特性导致初始引导输入中的颜色偏差在每个采样步骤中不断累积和放大，最终导致恢复图像出现严重的颜色失真[18]。目前，大多数UIE方法通常忽略使用传统算法来增强条件扩散模型的引导条件，从而限制了深度学习模型潜力的充分发挥。为了解决这些问题，本文提出了一种两阶段扩散模型，包括非物理颜色校正阶段和频域扩散阶段，即NCC-FDM，该模型通过非物理颜色校正阶段快速消除颜色偏差，从而加强条件扩散模型的引导条件。随后，频域扩散模型利用混合高频模块增强不同空间维度的高频成分。HHFM恢复了颜色校正图像的结构和语义信息。通过联合损失函数对频域扩散模型阶段进行联合监督，防止图像过度增强。本文的主要贡献如下：

1.
提出了一种两阶段扩散模型（NCC-FDM），包括非物理颜色校正阶段和频域扩散阶段。第一阶段是非物理颜色校正阶段（NCCS），在此阶段对退化图像进行快速颜色校正，以减轻低质量引导条件对条件扩散模型的影响。
2.
我们提出了一个混合高频增强模块（HHEM），该模块使用离散小波变换将图像分解为不同尺度的高频成分，并对不同尺度的高频成分应用差异化的增强策略。
3.
将条件扩散模型应用于颜色校准图像的低频子带，以学习真实图像的颜色分布。同时，设计了一个联合损失函数，结合噪声预测、高频特征匹配和图像重建，在空间域和频率域实现联合监督。

章节片段

传统的水下图像增强算法

基于物理的水下图像增强方法从根本上依赖于构建基于水下光学理论的模型来补偿由光衰减和散射引起的图像退化。实施这些方法通常需要特定的先验知识，通常包括红色通道先验、水下暗通道先验和最小信息先验。Drews[19]提出了水下暗通道先验（UDCP），该先验能有效估计传输映射

总体框架

由于水下图像中高频和低频成分的信息内容和退化程度不同，不同空间维度的高频成分携带的信息和噪声量也不同。此外，当使用退化图像作为条件引导时，条件扩散模型容易受到色差的影响。因此，需要考虑如何有效地整合非物理方法和频域信息

实施细节

所有实验都在配备NVIDIA RTX 3090GPU（内存24 GB）的服务器上进行，使用Python 3.8和PyTorch 1.12。训练采用了Adam W优化器，批量大小为256 × 256，共进行了400个周期。初始学习率设置为8e-5，采用余弦退火调度器进行学习率衰减，最小学习率为初始值的1%。在训练阶段，该算法的扩散模型使用了