强大的3D场景重建和逼真渲染对于虚拟现实/增强现实的进步、文化遗产保护以及电影和游戏行业至关重要。在过去几年中,神经辐射场(NeRF)[1]作为从校准的多视图图像重建静态3D场景的技术展示了巨大的潜力,激发了大量创新方法[2]、[3]。然而,在有限的计算资源下对具有复杂运动的真实世界场景进行建模仍然是一个巨大的挑战。
为了解决这个问题,最近的神经渲染方法在从多视图视频重建3D动态场景方面取得了显著进展。此外,一些方法[4]、[5]使用变形场将神经辐射场从给定时间映射到规范空间。其他方法利用显式的时间表示,如4D时空网格或分解张量[6]、[7],直接对动态进行建模,以实现更高效的优化和渲染。第三种重要的范式是动态/静态分解方法[8]、[9],它们分别对移动的前景元素和静态背景进行建模,以提高效率和质量。
尽管取得了显著进展,但在实现复杂场景的高质量重建和高效性方面仍存在挑战。真实世界场景的动态性往往具有高度的时间变化性。例如,一些场景可能具有剧烈的运动或显著的外观变化,而其他场景则相对静态。此外,由于空间或时间捕获的限制,一些视频序列只包含动态对象的部分信息。在这种情况下,简单的采样策略显然是不够的,因为它没有考虑到不同场景区域的独特运动特性。计算资源在变化缓慢的场景区域被过度消耗,而在变化迅速的场景区域,表示能力不足以捕捉细节。因此,渲染质量和计算效率之间的权衡变得不可避免。
在本文中,我们利用动态场景的时变复杂性和丰富的语义信息来解决上述问题。我们提出了一个新框架,通过自适应地在时间域采样并动态融合多尺度运动特征来智能分配计算资源。我们的方法包括两个协同工作的组成部分。首先,我们引入了一种自适应关键帧选择策略来优化时间采样。这种方法不是使用固定的时间间隔,而是利用SAM [10]提取的语义特征和光流信息来智能选择关键帧。它根据场景复杂度自适应地确定关键帧的数量和分布。其次,基于自适应选择的关键帧,我们必须有效地建模多样化的运动模式。为此,受Gear-NeRF [11]的启发,我们提出了齿轮注意力机制(GAM)。该机制用动态加权注意力机制替代了原始的Gear-NeRF的离散齿轮分配策略,使得模型能够根据场景内容动态调整不同运动尺度的特征权重分布。这使得模型能够更好地处理连续运动尺度和混合运动模式。实验结果表明,我们的方法在动态场景的新视图合成方面非常有效。在像Google Immersive数据集[12]这样的具有挑战性的数据集上,我们的自适应关键帧分布和注意力机制显著提高了运动场景的重建质量。
我们的贡献如下:
•我们引入了一种自适应关键帧采样策略,根据场景动态和语义内容复杂性自动选择关键帧。
•我们提出了一种GAM,可以实现多尺度特征的动力学加权融合。
•在各种真实世界数据集上的广泛实验表明,我们的方法实现了高保真的新视图合成。
本文的其余部分结构如下:第2节提供了相关工作的全面概述。第3节详细阐述了我们的方法,该方法结合了自适应关键帧选择策略和GAM用于动态场景重建。第4节详细介绍了实验结果。最后,第5节得出了结论。