KASS:通过基于内核的自适应时空同步技术实现高效的视频伪影去除

时间:2026年2月3日
来源:Computer Vision and Image Understanding

编辑推荐:

视频压缩伪影去除方法、多分支对齐模块、自适应空间注意力、轻量化网络架构、稳定性提升

广告
   X   

林立群|唐发伟|王明星|廖一鹏|赵铁松
中国福州大学

摘要

视频压缩对于减少带宽和存储需求至关重要,但往往会引入影响视觉质量的伪影。当前的视频压缩伪影去除(VCAR)方法面临计算复杂度高和增强效果不稳定的挑战。为了解决这些问题,我们提出了一种新颖的核自适应时空同步(KASS)网络。首先,双分支对齐模块(DAM)实现了多接收域特征对齐,以建模复杂的运动模式。其次,自适应空间注意力(ASA)模块采用具有不同核大小的多分支可变形卷积来定位伪影,然后通过注意力引导的重建高效恢复高频细节。第三,时空多尺度对齐(SMA)模块捕获全局时空信息,并通过空间和通道注意力整合多帧特征。该设计在有效去除伪影的同时,提高了对齐和增强稳定性。实验表明,KASS显著提升了伪影去除性能,同时克服了对齐精度、计算负担和增强稳定性的关键限制。

部分内容摘录

引言

随着智能手机和在线视频平台(如直播和短视频)的广泛使用,视频数据量呈爆炸性增长。这种增长给存储和传输带来了越来越大的挑战。因此,视频压缩已成为减少数据冗余和提高传输效率不可或缺的解决方案。近年来,视频编码取得了显著进展,产生了高效视频编码(HEVC)等先进标准。

基于单帧的压缩伪影去除

基于单帧的方法主要利用传统的图像处理技术。例如,Foi等人(2007年)提出了一种点态自适应离散余弦变换,用于减少JPEG压缩引起的块状伪影和振铃伪影。Jancsary等人(2012年)通过采用回归树域方法显著减轻了块状伪影。受超分辨率任务的启发(Dong等人,2014年),Dong等人(2015年)设计了一种基于四层CNN的ARCNN来减轻压缩伪影。

问题表述

视频恢复可以被视为从退化视频序列D学习到其高质量对应序列V的映射过程。设D={D}t}t=1TV=Vt}t=1T分别表示退化序列和恢复序列。恢复过程可以建模为V=R(D;θ)其中R()表示通用的视频恢复模型,θ表示可学习的参数,V是从输入D生成的恢复视频。
在多帧VCAR中,常见的做法是将R分解为两部分:对齐模块

数据集

与现有方法一致(Jiang等人,2023年;Luo等人,2022年;Yu等人,2023年),我们在MFQEv2(Guan等人,2019年)数据集上训练和评估我们的模型。该数据集包含来自Xiph1、VQEG2和JCT-VC的126个视频序列,具有不同的分辨率和内容。根据前述工作中的常见设置,使用108/18对压缩/未压缩视频进行训练/测试。测试视频存储为YUV-420格式,并分为五个部分

结论

在本文中,我们提出了一种轻量级的视频压缩伪影去除网络,它在降低计算成本的同时提高了增强效果的稳定性。与传统方法不同,KASS引入了一种自适应可变形卷积核大小的机制,增强了特征对齐的灵活性和精度。这有效解决了结构固定的单路径可变形卷积核方法可能出现的偏移信息偏差问题。

CRediT作者贡献声明

林立群:资源提供。唐发伟:撰写——原始草稿,软件开发。王明星:软件开发。廖一鹏:项目管理。赵铁松:资源提供。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

致谢

本工作部分得到了国家自然科学基金(项目编号:62571132)和福建省自然科学基金与技术创新联合基金项目(项目编号:2023J01395和2023Y9346)的支持。(通讯作者:廖一鹏。)

生物通微信公众号
微信
新浪微博


生物通 版权所有