随着神经辐射场[1]、[2]、[3]的快速发展,场景表示在用可微分公式建模连续几何和外观方面取得了显著进展,这在计算机视觉和图形学领域引起了广泛关注。这一成功激发了对多场景泛化[4]、[5]、[6]、[7]的兴趣,这些方法通过学习多个训练场景来合成这些场景的新视图。
当前的多场景泛化方法大致可以分为两类[8]:全局条件泛化方法和局部条件泛化方法。全局条件方法[6]、[7]、[9]使用摊销推理或自动解码器框架来编码整个场景,而局部泛化技术[5]、[10]、[11]从提供的参考视图提取并映射局部特征。然而,这些方法从根本上依赖于可观察场景视图的假设,因为它们依赖于多视图图像作为模型输入或监督,这使得它们不适用于完全没有视觉数据的真正未知环境。
为了解决这一挑战,我们首先提出利用语义属性作为场景表示的关键中介。通过嵌入和映射场景语义属性(例如,几何和纹理描述符),我们的方法建立了语义-视觉关联,从而在不需要特定于场景的视觉观察的情况下实现新视图合成。此外,考虑到不同的语义表示包含不同层次的信息,我们利用了它们的独特优势:局部语义擅长捕捉细粒度的对象级特征,而全局语义有效地表示了整个场景的上下文。基于此,我们在本文中提出了层次化语义引导的统一辐射场(HiSURF)。我们提出的方法包括三个关键组成部分:局部语义嵌入模块、全局语义映射模块和复合渲染模块。在对已知场景进行训练时,局部语义嵌入模块通过嵌入场景对象的几何和纹理语义来生成细粒度的对象级三平面特征。采用这种局部嵌入方法,模型可以在训练过程中学习到与不同类型语义相对应的详细信息。同时,全局语义映射模块基于场景的所有语义生成粗粒度的场景级三平面,它可以表示对象边界外的背景区域,从而提高模型渲染更真实和完整的全局场景视图的能力。复合渲染模块利用对象位置信息将对象级和场景级的三平面特征投影到场景空间中,并结合这些投影特征来合成视图图像。该模块能够有效地统一场景的局部和全局表示,同时避免在背景区域进行冗余计算。训练完成后,当提供未知场景的语义时,HiSURF可以根据从已知场景学习到的几何和纹理特征实现未知场景的高精度视图合成。
本文的贡献如下:
1.我们设计了一个局部语义嵌入模块,分别嵌入几何和纹理语义,深入探索了场景对象几何和纹理的详细特征。
2.我们设计了一个全局语义映射模块,综合考虑了场景的整体语义信息,并优化了对象内部和外部区域的表示。这显著提高了模型渲染更真实和完整的全局场景图像的能力。
3.我们设计了一个复合渲染模块,利用几何投影融合对象级和场景级特征。这种方法增强了局部对象的详细表示,同时避免了背景区域的冗余计算,有效提高了计算效率和渲染质量。
4.我们通过集成设计的局部语义嵌入模块、全局语义映射模块和复合渲染模块提出了HiSURF。第4节中的实验结果证明了所提方法的有效性。
本文的其余部分组织如下:第2节回顾了新视图合成和泛化场景表示的方法;第3节详细介绍了所提出的方法;第4节描述了实验结果;第5节总结了研究工作。