KASS：通过基于内核的自适应时空同步技术实现高效的视频伪影去除

生物通首页 > 今日动态 > 正文

KASS：通过基于内核的自适应时空同步技术实现高效的视频伪影去除

时间：2026年2月3日

来源：Computer Vision and Image Understanding

编辑推荐：

视频压缩伪影去除方法、多分支对齐模块、自适应空间注意力、轻量化网络架构、稳定性提升

林立群|唐发伟|王明星|廖一鹏|赵铁松

中国福州大学

摘要

视频压缩对于减少带宽和存储需求至关重要，但往往会引入影响视觉质量的伪影。当前的视频压缩伪影去除（VCAR）方法面临计算复杂度高和增强效果不稳定的挑战。为了解决这些问题，我们提出了一种新颖的核自适应时空同步（KASS）网络。首先，双分支对齐模块（DAM）实现了多接收域特征对齐，以建模复杂的运动模式。其次，自适应空间注意力（ASA）模块采用具有不同核大小的多分支可变形卷积来定位伪影，然后通过注意力引导的重建高效恢复高频细节。第三，时空多尺度对齐（SMA）模块捕获全局时空信息，并通过空间和通道注意力整合多帧特征。该设计在有效去除伪影的同时，提高了对齐和增强稳定性。实验表明，KASS显著提升了伪影去除性能，同时克服了对齐精度、计算负担和增强稳定性的关键限制。

部分内容摘录

引言

随着智能手机和在线视频平台（如直播和短视频）的广泛使用，视频数据量呈爆炸性增长。这种增长给存储和传输带来了越来越大的挑战。因此，视频压缩已成为减少数据冗余和提高传输效率不可或缺的解决方案。近年来，视频编码取得了显著进展，产生了高效视频编码（HEVC）等先进标准。

基于单帧的压缩伪影去除

基于单帧的方法主要利用传统的图像处理技术。例如，Foi等人（2007年）提出了一种点态自适应离散余弦变换，用于减少JPEG压缩引起的块状伪影和振铃伪影。Jancsary等人（2012年）通过采用回归树域方法显著减轻了块状伪影。受超分辨率任务的启发（Dong等人，2014年），Dong等人（2015年）设计了一种基于四层CNN的ARCNN来减轻压缩伪影。

问题表述

视频恢复可以被视为从退化视频序列

D

学习到其高质量对应序列

V

的映射过程。设

D = {D}_{t}^{}} t = 1 T

和

V = V t} t = 1 T

分别表示退化序列和恢复序列。恢复过程可以建模为

V = R (D; θ)

其中

R (⋅)

表示通用的视频恢复模型，

θ

表示可学习的参数，

V

是从输入

D

生成的恢复视频。

在多帧VCAR中，常见的做法是将

R

分解为两部分：对齐模块

数据集

与现有方法一致（Jiang等人，2023年；Luo等人，2022年；Yu等人，2023年），我们在MFQEv2（Guan等人，2019年）数据集上训练和评估我们的模型。该数据集包含来自Xiph1、VQEG2和JCT-VC的126个视频序列，具有不同的分辨率和内容。根据前述工作中的常见设置，使用108/18对压缩/未压缩视频进行训练/测试。测试视频存储为YUV-420格式，并分为五个部分