HiSURF：一种分层语义引导的统一辐射场模型，用于泛化处理未见过的场景

生物通首页 > 今日动态 > 正文

HiSURF：一种分层语义引导的统一辐射场模型，用于泛化处理未见过的场景

时间：2026年2月11日

来源：Knowledge-Based Systems

编辑推荐：

分层语义引导的统一辐射场通过本地语义嵌入和全局语义映射模块，整合多尺度语义信息以提升未见场景的合成质量与泛化能力。

刘强|王腾|张志国|聂军|卢晓|盛春阳|宋世斌|孙巧巧|王海霞

山东省机器人与智能技术重点实验室，山东科技大学，青岛，266590，中国

摘要

最近在神经场表示方面的进展显著提高了对已知场景的新视图合成能力。然而，将已知场景的表示泛化到未知场景仍然具有挑战性。为了解决这个问题，我们提出了层次化语义引导的统一辐射场（HiSURF），以利用已知场景中的层次化语义属性作为先验知识。通过在语义属性和视觉特征之间建立可解释的映射，可以实现未知环境场景表示的合成。具体来说，HiSURF包括一个局部语义嵌入模块、一个全局语义映射模块和一个复合渲染模块。对于包含多个对象的场景，局部模块会分解对象的属性以生成细粒度的对象级三平面，从而保留对象的结构和表面细节。同时，全局模块利用整个场景的属性来构建粗粒度的场景级三平面，确保场景的布局一致性和上下文连贯性。然后，复合渲染模块整合对象级和场景级的三平面特征，以实现高质量的新视图合成。在ClevrTex和Kubric数据集上的实验结果表明，我们的HiSURF不仅在新的视图合成方面优于现有方法，而且在泛化到未知场景方面也表现出色。

引言

随着神经辐射场[1]、[2]、[3]的快速发展，场景表示在用可微分公式建模连续几何和外观方面取得了显著进展，这在计算机视觉和图形学领域引起了广泛关注。这一成功激发了对多场景泛化[4]、[5]、[6]、[7]的兴趣，这些方法通过学习多个训练场景来合成这些场景的新视图。

当前的多场景泛化方法大致可以分为两类[8]：全局条件泛化方法和局部条件泛化方法。全局条件方法[6]、[7]、[9]使用摊销推理或自动解码器框架来编码整个场景，而局部泛化技术[5]、[10]、[11]从提供的参考视图提取并映射局部特征。然而，这些方法从根本上依赖于可观察场景视图的假设，因为它们依赖于多视图图像作为模型输入或监督，这使得它们不适用于完全没有视觉数据的真正未知环境。

为了解决这一挑战，我们首先提出利用语义属性作为场景表示的关键中介。通过嵌入和映射场景语义属性（例如，几何和纹理描述符），我们的方法建立了语义-视觉关联，从而在不需要特定于场景的视觉观察的情况下实现新视图合成。此外，考虑到不同的语义表示包含不同层次的信息，我们利用了它们的独特优势：局部语义擅长捕捉细粒度的对象级特征，而全局语义有效地表示了整个场景的上下文。基于此，我们在本文中提出了层次化语义引导的统一辐射场（HiSURF）。我们提出的方法包括三个关键组成部分：局部语义嵌入模块、全局语义映射模块和复合渲染模块。在对已知场景进行训练时，局部语义嵌入模块通过嵌入场景对象的几何和纹理语义来生成细粒度的对象级三平面特征。采用这种局部嵌入方法，模型可以在训练过程中学习到与不同类型语义相对应的详细信息。同时，全局语义映射模块基于场景的所有语义生成粗粒度的场景级三平面，它可以表示对象边界外的背景区域，从而提高模型渲染更真实和完整的全局场景视图的能力。复合渲染模块利用对象位置信息将对象级和场景级的三平面特征投影到场景空间中，并结合这些投影特征来合成视图图像。该模块能够有效地统一场景的局部和全局表示，同时避免在背景区域进行冗余计算。训练完成后，当提供未知场景的语义时，HiSURF可以根据从已知场景学习到的几何和纹理特征实现未知场景的高精度视图合成。

本文的贡献如下：

我们设计了一个局部语义嵌入模块，分别嵌入几何和纹理语义，深入探索了场景对象几何和纹理的详细特征。

我们设计了一个全局语义映射模块，综合考虑了场景的整体语义信息，并优化了对象内部和外部区域的表示。这显著提高了模型渲染更真实和完整的全局场景图像的能力。

我们设计了一个复合渲染模块，利用几何投影融合对象级和场景级特征。这种方法增强了局部对象的详细表示，同时避免了背景区域的冗余计算，有效提高了计算效率和渲染质量。

我们通过集成设计的局部语义嵌入模块、全局语义映射模块和复合渲染模块提出了HiSURF。第4节中的实验结果证明了所提方法的有效性。

本文的其余部分组织如下：第2节回顾了新视图合成和泛化场景表示的方法；第3节详细介绍了所提出的方法；第4节描述了实验结果；第5节总结了研究工作。

部分摘录

新视图合成

Mildenhall等人[1]提出了神经辐射场（NeRF），将其表示为连续的体积网格，其中包含密度和颜色信息，通过网络参数优化实现真实新视图的自动生成。Zhang等人[12]分析了NeRF中的形状-辐射歧义，并提出了一种倒球参数化方法来提高无边界场景中的视图合成质量。[13]、[14]、[15]联合学习了几何和外观信息，以实现高精度的3D表面重建。

方法论

为了解决未知场景泛化的问题，我们提出了层次化语义引导的统一辐射场（HiSURF）。首先描述了HiSURF的总体架构。其次，介绍了HiSURF中用于合成新视图的基线Triplane-NeRF渲染模型。第三，详细描述了三个核心模块的设计：局部语义嵌入模块、全局语义映射模块和复合渲染模块。

实验

在本节中，我们使用ClevrTex和Kubric数据集验证了所提方法在表示已知和未知场景方面的有效性。首先分别介绍了ClevrTex和Kubric数据集。其次简要介绍了该方法的实现细节。第三，通过将实验结果与现有方法进行比较来评估我们提出方法的有效性。最后，对局部语义嵌入

讨论

虽然HiSURF在合成数据集上表现出色，但从实际场景中获取精确的结构化语义仍然是现实世界应用中的一个挑战。为了解决这个问题，我们概述了两种潜在的集成策略。

首先，为了从原始观察中重建真实世界场景，HiSURF可以与上游感知模型级联。最近在单目3D对象检测方面的进展可以提供粗略的几何代理，如边界框等

CRediT作者贡献声明

刘强：撰写——原始草稿，验证，方法论。王腾：撰写——审阅与编辑，监督。张志国：软件，资金获取，数据管理。聂军：资源，资金获取。卢晓：资源，资金获取。盛春阳：撰写——原始草稿。宋世斌：数据管理。孙巧巧：数据管理。王海霞：项目管理，方法论，资金获取，概念化。