近年来,超高清视频技术的飞速发展导致视频数据量激增。高效的视频压缩不仅需要显著减少数据量,还要保持令人满意的视觉质量,以实现无缝传输和存储。为此,一系列传统的混合编码标准应运而生,包括通用视频编码(VVC)[1]、高效视频编码(HEVC)[3]、高级视频编码(AVC)[4]和基本视频编码(EVC)[5]。同时,端到端学习-based的压缩范式也崭露头角,它用神经网络替代了手工设计的模块,通过通道自适应潜在表示[6]、持续跨域学习[7]甚至语义感知比特分配[8]等先进技术来优化速率-失真性能。尽管这些学习型编解码器显示出巨大潜力,其对抗鲁棒性也是一个活跃的研究课题[9],但在行业应用中,传统标准如VVC仍然占据主导地位。
对这些传统编码标准的研究沿着两条互补的路径展开。第一条路径针对内部编码器的优化,例如开发快速CU大小决策算法以加速VVC帧内编码[10]。第二条路径(也是我们工作的重点)通过后处理增强来应对压缩不可避免的质量退化。在低比特率下,这种退化变得严重,会导致模糊和块状伪影等视觉损伤。
后处理方法通过从解码后的视频中恢复质量,越来越多地采用深度学习技术,而非预处理技术[12]。这些方法可以根据其架构基础分为三类:卷积神经网络(CNNs)、变换器及其混合体。基于CNN的方法[13]、[14]、[15]、[16]、[17]在捕获局部特征方面表现出色,但由于其局部感受野的限制而受到局限。相比之下,变换器利用自注意力来建模长距离依赖性,在广泛的视觉任务中表现出强大的性能[18]。它们建模复杂空间关系的能力已成功应用于高级挑战,如鸟瞰图(BEV)语义分割[19]。在低级视觉任务中,Swin Transformer[20]和SwinIR[21]等架构以及频域组合[22]在图像恢复方面被证明是有效的。
为了结合两者的优势,设计了混合CNN-Transformer方法[23]、[24]、[25]。该领域的主要挑战在于多帧时间增强。虽然利用帧间相关性看似直观,但这些方法本质上计算复杂度较高,并且对精确的运动估计依赖性强。在实践中,不完美的运动补偿可能会引入新的、分散注意力的伪影,从而违背了质量提升的目标。为了解决这些问题,我们的工作重点关注更稳健和高效的帧内增强范式(见图1)。
然而,即使在单帧上下文中,也存在两个重大挑战。首先,现有方法难以同时恢复细粒度细节和保持全局结构一致性,常常导致纹理过度平滑或结构扭曲。其次,大多数模型对所有图像区域采用统一的增强策略,忽略了人类视觉系统(HVS)的原理,无法充分恢复感知上关键的区域。这与现代图像质量评估(IQA)的趋势相反,后者开发了复杂的模型,使用因果表示学习[26]、规则化梯度提升网络[27]以及在噪声主观数据上的稳健训练[28]等技术来更好地符合人类判断。
为了克服这些特定限制,本文提出了多尺度变换器和频域-空间融合网络(MSTF-Net),这是一种专为帧内视频质量提升设计的创新框架。
主要贡献总结如下:
(1) 一种高效的傅里叶空间融合架构,通过整合全局频域信息和局部空间特征,协同优化细节恢复和全局一致性。
(2) 一个多尺度残差学习模块,通过级联残差块在不同尺度上细化压缩伪影特征,提高了模型对不同空间频率下出现的复杂失真模式的泛化能力。
(3) 一种基于感知的优化策略,将残差可察觉差异(Residual Just Noticeable Difference)理论纳入损失函数,使模型能够自适应地关注视觉敏感区域,确保输出与人类主观感知一致。