MSTF-Net：一种多尺度Transformer与频域-空间融合网络，用于压缩视频帧质量的提升（ChinaMM）

生物通首页 > 今日动态 > 正文

MSTF-Net：一种多尺度Transformer与频域-空间融合网络，用于压缩视频帧质量的提升（ChinaMM）

时间：2025年12月28日

来源：Displays

编辑推荐：

视频压缩伪影修复中提出CNN-Transformer混合架构MSTF-Net，通过傅里叶频域特征与局部空间特征融合，结合多尺度残差学习和感知优化机制，显著提升PSNR 1.12dB、SSIM 0.0112和VMAF 0.36等指标。

王佳佳|尚秀武|程培志|李国平|王国忠

中国上海工程技术大学电子与电气工程学院

摘要

随着H.266/VVC等视频编码标准的日益普及，高压缩比的视频在质量上会遭受退化，包括块状伪影和色彩模糊等问题。现有的基于深度学习的质量提升方法主要关注空间特征，往往忽略了频域中的全局结构信息，这限制了它们处理复杂压缩失真的能力。为了克服这些限制，本研究提出了一种多尺度变换器和频域-空间融合网络（MSTF-Net），这是一种CNN-Transformer混合架构。MSTF-Net采用了一种协同优化机制，其中傅里叶变换后的频域特征指导空间特征的补偿。此外，还引入了一种双权重机制，以使增强效果更符合人类感知。这种策略使网络能够优先处理对人类视觉高度敏感的区域，并抑制均匀区域中的冗余处理。实验结果表明，MSTF-Net在PSNR、SSIM和VMAF方面的平均提升分别为1.121 dB、0.0112和0.36，证实了其在帧内压缩质量提升方面的有效性。

引言

近年来，超高清视频技术的飞速发展导致视频数据量激增。高效的视频压缩不仅需要显著减少数据量，还要保持令人满意的视觉质量，以实现无缝传输和存储。为此，一系列传统的混合编码标准应运而生，包括通用视频编码（VVC）[1]、高效视频编码（HEVC）[3]、高级视频编码（AVC）[4]和基本视频编码（EVC）[5]。同时，端到端学习-based的压缩范式也崭露头角，它用神经网络替代了手工设计的模块，通过通道自适应潜在表示[6]、持续跨域学习[7]甚至语义感知比特分配[8]等先进技术来优化速率-失真性能。尽管这些学习型编解码器显示出巨大潜力，其对抗鲁棒性也是一个活跃的研究课题[9]，但在行业应用中，传统标准如VVC仍然占据主导地位。

对这些传统编码标准的研究沿着两条互补的路径展开。第一条路径针对内部编码器的优化，例如开发快速CU大小决策算法以加速VVC帧内编码[10]。第二条路径（也是我们工作的重点）通过后处理增强来应对压缩不可避免的质量退化。在低比特率下，这种退化变得严重，会导致模糊和块状伪影等视觉损伤。

后处理方法通过从解码后的视频中恢复质量，越来越多地采用深度学习技术，而非预处理技术[12]。这些方法可以根据其架构基础分为三类：卷积神经网络（CNNs）、变换器及其混合体。基于CNN的方法[13]、[14]、[15]、[16]、[17]在捕获局部特征方面表现出色，但由于其局部感受野的限制而受到局限。相比之下，变换器利用自注意力来建模长距离依赖性，在广泛的视觉任务中表现出强大的性能[18]。它们建模复杂空间关系的能力已成功应用于高级挑战，如鸟瞰图（BEV）语义分割[19]。在低级视觉任务中，Swin Transformer[20]和SwinIR[21]等架构以及频域组合[22]在图像恢复方面被证明是有效的。

为了结合两者的优势，设计了混合CNN-Transformer方法[23]、[24]、[25]。该领域的主要挑战在于多帧时间增强。虽然利用帧间相关性看似直观，但这些方法本质上计算复杂度较高，并且对精确的运动估计依赖性强。在实践中，不完美的运动补偿可能会引入新的、分散注意力的伪影，从而违背了质量提升的目标。为了解决这些问题，我们的工作重点关注更稳健和高效的帧内增强范式（见图1）。

然而，即使在单帧上下文中，也存在两个重大挑战。首先，现有方法难以同时恢复细粒度细节和保持全局结构一致性，常常导致纹理过度平滑或结构扭曲。其次，大多数模型对所有图像区域采用统一的增强策略，忽略了人类视觉系统（HVS）的原理，无法充分恢复感知上关键的区域。这与现代图像质量评估（IQA）的趋势相反，后者开发了复杂的模型，使用因果表示学习[26]、规则化梯度提升网络[27]以及在噪声主观数据上的稳健训练[28]等技术来更好地符合人类判断。

为了克服这些特定限制，本文提出了多尺度变换器和频域-空间融合网络（MSTF-Net），这是一种专为帧内视频质量提升设计的创新框架。

主要贡献总结如下：

(1) 一种高效的傅里叶空间融合架构，通过整合全局频域信息和局部空间特征，协同优化细节恢复和全局一致性。

(2) 一个多尺度残差学习模块，通过级联残差块在不同尺度上细化压缩伪影特征，提高了模型对不同空间频率下出现的复杂失真模式的泛化能力。

(3) 一种基于感知的优化策略，将残差可察觉差异（Residual Just Noticeable Difference）理论纳入损失函数，使模型能够自适应地关注视觉敏感区域，确保输出与人类主观感知一致。

方法概述

提出的方法

本研究提出了多尺度变换器和频域-空间融合网络（MSTF-Net），专门用于通用视频编码（VVC）标准解码的视频的单帧质量提升。其主要目标不仅仅是创建一个轻量级网络，而是为恢复过程的每个阶段分配最合适的工具。我们利用卷积神经网络（CNNs）在局部操作（如浅层特征提取和特征融合）方面的效率，

实验设置

MSTF-Net在运行Ubuntu 22.04.5 LTS的NVIDIA Tesla V100设备上使用PyTorch框架实现。总训练周期数为150，批量大小为8。学习率设置为1e-4，以实现最佳的收敛速度和稳定性。在MSTB中，Swin Transformer的窗口大小设置为8，提取深度设置为6。