水下成像是获取海洋信息的关键途径,在海洋探索和发展中发挥着不可或缺的作用。然而,复杂的水下环境会对图像质量造成多种干扰[1]。水对不同颜色波长的选择性衰减会导致颜色失真,而水生微生物和悬浮颗粒的光吸收效应及散射会降低图像的亮度和对比度。从退化的水下图像中提取有意义的信息极具挑战性,这直接阻碍了水下考古[2]、海底测绘[3]、海洋生物学研究[4]和水下物体检测[5]等任务的进展。因此,水下图像增强技术的研究具有重要的学术和实际价值。
近年来,水下图像增强方法可以分为两类:传统算法和深度学习方法。传统算法进一步包括物理方法和非物理方法。物理方法如颜色校正[6]和暗通道先验[7],非物理方法如白平衡算法[8]和直方图均衡[9]。传统的物理成像方法基于水下光学物理模型,通过反向求解目标反射率和透射率等参数来消除水散射和吸收的干扰,恢复物理上合理的清晰图像。而非物理算法则直接调整像素值或进行域变换,专注于优化图像对比度、颜色和细节以增强视觉效果。传统算法所需的训练数据量较少,从而节省了计算资源。然而,传统算法依赖于先验知识,使得它们在复杂的退化场景中容易发生细节丢失和过度增强。
第二类是深度学习方法。典型的方法包括卷积神经网络(CNNs)、生成对抗网络(GANs)和扩散模型。卷积神经网络(CNNs)[10]通过卷积和池化层提取图像特征,同时通过权重共享减少计算负载。CNNs可以利用大型配对的水下数据集学习退化图像与其真实对应图像之间的映射关系[11]。随后,将Transformer的注意力机制引入CNNs中。注意力机制[12]根据输入内容动态调整焦点,显示出对复杂关联信息的更强适应性,并在捕捉全局图像关系方面具有优势。生成对抗网络(GANs)[13]的原理涉及以对抗方式训练两个网络:生成器和鉴别器。生成器学习生成真实数据,而鉴别器学习区分真实数据和合成数据。最终,生成器产生的样本与真实数据分布非常接近。然而,CNNs和Transformer容易受到训练样本的限制,难以超越数据分布并生成多样化的结果。GANs往往存在生成多样性不足和由于对抗训练不平衡而导致生成内容失真等问题。除了上述主流框架外,其他先进的计算机视觉模型也为水下图像增强提供了潜在的解决方案。DeepLab[14]是一种先进的语义分割框架,它采用孔状卷积和孔状空间金字塔池化(ASPP)来捕获多尺度上下文信息。其提取丰富多尺度语义特征的能力可以应用于水下图像增强任务,特别是在处理退化区域时保持细粒度细节。EfficientNet[15]是一系列高效的卷积神经网络,通过复合缩放网络深度、宽度和分辨率来实现更高的准确性和效率。其平衡的架构设计和出色的参数效率使其成为水下图像恢复的有前途的骨干网络,特别是在计算资源有限的场景中。
扩散模型[16]由于其稳定的训练过程、强大的数据分布适应能力和丰富的生成多样性,在图像生成领域迅速崭露头角。利用其独特的逐步去噪概率生成机制,这些模型可以稳定地学习数据分布,同时生成保持感知真实感的丰富多样内容。扩散模型在捕获复杂模态图像数据中的细微特征方面表现出色,生成高保真度和细节丰富的图像。作为扩散模型的一个重要扩展和高级形式,条件扩散模型[17]引入了条件约束机制。与传统依赖随机噪声生成无方向样本的扩散模型不同,它们可以根据用户定义的条件精确生成满足特定类型、类别或风格要求的输出。这一特性增强了它们在图像恢复和风格转换等实际应用中的实用性。然而,由退化图像引导的扩散模型在训练过程中常常表现出严重的颜色偏差,这显著影响了生成图像的质量。
尽管条件扩散模型在水下图像增强(UIE)领域展现出独特优势,但扩散模型的时间迭代特性导致初始引导输入中的颜色偏差在每个采样步骤中不断累积和放大,最终导致恢复图像出现严重的颜色失真[18]。目前,大多数UIE方法通常忽略使用传统算法来增强条件扩散模型的引导条件,从而限制了深度学习模型潜力的充分发挥。为了解决这些问题,本文提出了一种两阶段扩散模型,包括非物理颜色校正阶段和频域扩散阶段,即NCC-FDM,该模型通过非物理颜色校正阶段快速消除颜色偏差,从而加强条件扩散模型的引导条件。随后,频域扩散模型利用混合高频模块增强不同空间维度的高频成分。HHFM恢复了颜色校正图像的结构和语义信息。通过联合损失函数对频域扩散模型阶段进行联合监督,防止图像过度增强。本文的主要贡献如下:
- 1.
提出了一种两阶段扩散模型(NCC-FDM),包括非物理颜色校正阶段和频域扩散阶段。第一阶段是非物理颜色校正阶段(NCCS),在此阶段对退化图像进行快速颜色校正,以减轻低质量引导条件对条件扩散模型的影响。
- 2.
我们提出了一个混合高频增强模块(HHEM),该模块使用离散小波变换将图像分解为不同尺度的高频成分,并对不同尺度的高频成分应用差异化的增强策略。
- 3.
将条件扩散模型应用于颜色校准图像的低频子带,以学习真实图像的颜色分布。同时,设计了一个联合损失函数,结合噪声预测、高频特征匹配和图像重建,在空间域和频率域实现联合监督。