降雨、雾霾和降雪等恶劣天气条件会显著降低视频的清晰度和信息质量。这极大地影响了下游计算机视觉任务,如目标检测[1]、跟踪[2]和分割[3],给自动驾驶[4]、无人机飞行[5]和视频监控[6]等应用带来了挑战。为了提高视觉系统的可靠性,消除视频中的恶劣天气影响至关重要。
早期的去天气方法[7]、[8]侧重于为特定的恶劣天气建模先验条件。显然,不同恶劣天气的先验条件不能统一建模。最近,基于卷积神经网络(CNN)[9]和Transformer[10]的视频修复(VR)方法被广泛用于去雨[11]、[12]、去雾[13]、[14]和去雪[7]、[15]。
尽管这些方法取得了优异的性能,但它们专注于特定任务或需要为多个任务分别进行训练,限制了它们对统一恶劣天气去除问题的泛化能力。此外,为不同的天气条件训练多个模型会复杂化具有多种恶劣退化的现实世界应用,并增加计算成本。此外,使用这些系统的必须在一系列去天气算法之间切换,这对于混合恶劣天气的视频数据来说是不切实际的。因此,开发一个能够恢复由各种天气条件退化的视频的统一全合一模型是一个紧迫的问题。然而,目前还没有一种有效的全合一方法能够适应性地去除视频中的多种退化。全合一方法的主要挑战是:(1)使VR模型能够适应性地处理不同的退化去除任务;(2)从多个相邻帧中提取互补的背景信息以提高恢复帧的质量。这些因素共同构成了一个高度复杂的任务,使得建模和解决全合一视频修复问题变得困难。
为此,我们提出了一个3D自适应注意力(3DASA)模块用于全合一视频去天气。该模块包含任务可学习的查询,使模型能够适应性地学习和理解各种类型的恶劣天气。这使得模型能够动态调整以适应不同的天气条件,从而提高全合一去天气的性能。此外,我们在通道注意力中的查询()、键()和值()结构中引入了帧()组件。这种增强使自注意力不仅能够沿着通道维度捕捉和处理特征,还能跨越时间维度进行处理。通过整合时间序列信息,我们的方法在视频修复任务中取得了更好的性能。
为了进一步提高视频修复的性能,我们旨在从生物学角度探索潜在的突破。生物学研究[16]、[17]表明,人类视网膜神经节细胞主要由大细胞(M细胞)和小细胞(P细胞)组成。M细胞负责动态感知和大范围的空间意识,具有较大的感受野和对快速变化的视觉刺激更高的敏感性。相比之下,P细胞专门用于颜色和细节感知,具有较小的感受野,因此在处理静态视觉信息时更有效。单图像修复(SIR)有效地模仿了P细胞的作用,在退化去除方面取得了显著进展[18]。然而,它无法捕捉动态信息,这限制了其在动态视频场景中的有效性。另一方面,VR方法类似于M细胞,利用时间信息来恢复运动细节。然而,这些方法往往不关注单帧内的空间纹理特征,这使得它们在某些工作中不如SIR有效[7]、[19]。因此,一种有前景的VR方法是使用两个不同的分支并行处理动态和静态信息,模仿M细胞和P细胞的互补作用。
受到人类视觉系统[17]结构和功能的启发,我们提出了一种生物驱动的双分支架构,名为DynStaticNet,其在功能上反映了灵长类动物视网膜中M细胞和P细胞的独特处理路径。在时间分支中,类似于专门用于运动检测和动态视觉处理的M细胞,我们使用了一个具有大时空感受野的3D Transformer块来从视频中提取与运动相关的特征[10]。Transformer块的核心是3DASA,它在自注意力机制中引入了帧(F)作为第四个权重矩阵,使得时间转置注意力能够有效捕捉帧间动态。相比之下,空间分支反映了P细胞的作用,P细胞以编码空间细节信息而闻名。为了解决这个问题,我们设计了一个多梯度聚合卷积(MGAConv)来捕捉丰富的空间方向梯度信息。具体来说,MGAConv包括四个并行的深度卷积,包括中心差分深度卷积(CDDC)、水平差分深度卷积(HDDC)和垂直差分深度卷积(VDDC)。与传统的并行卷积方法不同,MGAConv通过重新参数化操作将并行卷积融合到一个卷积核中,从而有效地编码了多样的空间变化。此外,它采用了深度可分离设计,显著降低了计算成本,同时不牺牲空间表示能力。通过以高效和轻量级的方式结合多个方向梯度,MGAConv增强了空间敏感性,并为在复杂退化下保留细粒度结构细节提供了原则性方法。在推理过程中,两个分支协同整合动态和静态线索,类似于M细胞和P细胞路径在人类视觉系统中共同贡献稳定感知的方式。这种生物启发的双路径合作是DynStaticNet在多种天气退化下鲁棒性和适应性的基础。
最后,我们通过整合现有的降雨[20]、雾霾[14]和去雪[7]数据集,合成了一个多天气视频数据集。广泛的实验表明,我们的方法优于之前的VR方法,并取得了最先进的结果。DynStatic框架有潜力成为未来视频处理的有效基石。
本工作的主要贡献如下:
•我们提出了一种生物启发的全合一视频修复双分支框架,该框架通过单一模型在两个维度上实现了多种退化的协同消除。
•对于时间分支,我们引入了一个3D自适应注意力(3DASA)模块来捕捉帧间的二阶注意力,并使用任务可学习的查询来适应性地学习全合一VR的任务特定特征。
•对于空间分支,我们设计了一个多梯度聚合卷积(MGAConv)以较低的计算成本捕捉更丰富的空间细节特征。
•广泛的实验表明,我们的模型在计算成本最低的情况下优于现有方法,展示了动态-静态框架在未来的视频处理中的潜力。