OV3DSeg-VGGT:融合视觉几何先验与开放词汇学习的3D场景语义分割新框架

时间:2026年3月30日
来源:Visual Informatics

编辑推荐:

针对现有开放词汇3D场景分割方法在新类别泛化能力不足、几何与语义信息未能有效结合等问题,来自浙江大学的研究团队提出了一种名为OV3DSeg-VGGT的新框架。该工作巧妙地将预训练视觉几何Transformer(VGGT)提取的几何先验知识,与CLIP模型提供的语义先验进行对齐融合。通过两阶段对比学习与CLIP引导的蒸馏投影,构建了一个既能感知空间结构又能识别任意类别物体的鲁棒分割模型。实验表明,该方法在多个基准测试上超越了现有最优方法,显著提升了开放词汇3D分割的泛化能力。

广告
   X   

想象一下,一个机器人走进一个从未见过的房间,它需要理解周围环境:识别出椅子、桌子、窗户,甚至是一盆从未在训练集中出现过的奇异植物。这种对任意物体进行识别和分割的能力,称为开放词汇三维场景分割,是机器人、自动驾驶、增强现实等领域的核心需求。然而,现实是骨感的。现有的大多数三维分割模型都像一个只会“死记硬背”的学生,只能识别训练时见过的固定类别清单。一旦遇到清单之外的物体,就束手无策。更棘手的是,现有方法要么依赖二维图像的语义线索,缺乏对三维空间结构的深刻理解,导致分割结果在多视角下不一致,物体边界模糊;要么(如基于神经辐射场或三维高斯泼溅的方法)虽然能重建精细场景,但每遇到一个新场景就需要从头训练,难以推广到真实世界的复杂环境。
问题的核心在于几何感知与语义信息的割裂。几何信息告诉我们物体的形状、位置和空间关系,而语义信息告诉我们“它是什么”。如何将两者无缝结合,让模型既能精准把握三维世界的结构,又能灵活理解无穷无尽的语义概念,成为了一个关键的挑战。
近日,来自浙江大学的研究团队在《Visual Informatics》上发表论文,提出了一个名为OV3DSeg-VGGT的新框架,旨在破解这一难题。他们创新的思路是,将一种新兴的强大视觉几何基础模型——视觉几何Transformer(Visual Geometry-Grounded Transformer, VGGT)的几何推理能力,与大规模视觉语言模型(如CLIP)的开放语义知识相融合。VGGT是一种在大规模配对三维数据上预训练的模型,具有强大的空间几何先验提取能力,能够从多视角图像中直接推断出深度、点云和相机参数,而无需显式的相机标定。研究团队设想,如果能将VGGT学到的“空间感”与CLIP学到的“知识库”对齐,就有可能打造出一个既“懂结构”又“识万物”的三维分割模型。
为了验证这一设想,研究人员系统性地开展了一系列研究。他们首先利用改进的Segment Anything Model v2 (SAM2)从多视角视频序列中生成时间上连贯的二维实例掩码,并从中提取CLIP语义特征。接着,他们设计了一个两阶段的对比学习框架:第一阶段,在VGGT的密集预测Transformer(DPT)解码头上进行微调,利用实例掩码引导模型学习具有判别性的、视角一致的几何感知特征;第二阶段,引入一个轻量级的CLIP引导蒸馏投影器,将第一阶段学到的像素级几何特征映射到CLIP的语义嵌入空间,实现几何特征与语义先验的对齐。最后,在推理阶段,模型通过计算投影后特征与CLIP文本嵌入的余弦相似度得到二维分割结果,并利用VGGT提供的几何先验(如点云和相机参数)将结果提升到三维空间,再通过基于三维空间连续性的优化来获得最终一致、准确的三维语义分割。
研究团队在ADE20K、ScanNet、ScanNet++等多个数据集上训练模型,并在ScanNet++、Replica、LERF-OVS和3D-OVS等数据集上进行了全面的零样本和少样本评估。结果表明,OV3DSeg-VGGT在开放词汇三维语义分割和物体定位任务上,均显著超越了包括LSeg、LERF、LangSplat在内的当前最先进方法,展现了卓越的泛化能力和分割精度。
这项研究主要运用了几个关键技术方法:一是基于SAM2的视频实例分割与CLIP特征提取,用于生成训练所需的语义监督信号;二是对预训练的VGGT模型进行两阶段对比学习微调,使其具备实例感知的几何特征提取能力;三是设计CLIP引导的蒸馏投影器,实现几何特征空间到开放语义空间的映射;四是利用VGGT重建的三维点云和相机参数,将二维分割结果融合并优化至三维空间。
1. 模型框架与核心流程
本研究提出的OV3DSeg-VGGT框架是一个端到端的系统。其核心流程是:给定一个场景的多视角RGB图像序列,首先利用SAM2生成跨帧一致的二维实例分割掩码,并从中提取对象级的CLIP语义特征。然后,将这些语义特征作为监督信号,通过两阶段学习来微调VGGT模型。第一阶段,利用多视角实例掩码和对比损失,微调VGGT的DPT解码头,使其输出的像素级特征能够区分不同实例。第二阶段,训练一个轻量级投影器,将DPT输出的特征对齐到CLIP的语义嵌入空间。在推理时,对于输入图像,模型通过投影后的特征与查询文本的CLIP嵌入计算相似度,得到二维分割图,再借助VGGT估计的深度和点云信息,将分割结果提升并优化到三维空间,形成最终的三维语义分割。
2. 与基线方法的定量比较
在ScanNet++和Replica数据集上的零样本评估显示,OV3DSeg-VGGT在平均交并比(mIoU)上达到70.8%,远超LSeg的25.4%、LERF的40.1%和LangSplat的50.1%。在物体定位准确率上,本方法达到79.2%,同样大幅领先。在LERF-OVS数据集上的少样本(单样本)微调评估中,本方法在分割mIoU(51.6%)和定位准确率(81.8%)上均达到最优或接近最优。在更具挑战性的3D-OVS数据集上,本方法取得了93.2%的mIoU,显著超越了包括3D-OVS、LangSplat在内的所有已有方法。
3. 消融实验与定性分析
消融实验验证了各个组件的必要性。移除“分割感知”训练阶段(Ours w/o seg-aware)或移除“三维优化”步骤(Ours w/o 3d opti)均会导致性能显著下降,分别降至41.7%和69.5%的mIoU,证明了所提两阶段学习与三维空间连续性优化均不可或缺。定性结果可视化表明,相比基线方法,OV3DSeg-VGGT产生的三维分割结果边界更清晰,语义更准确,对复杂物体和遮挡区域的处理也更鲁棒。
本研究成功地开发了OV3DSeg-VGGT,一个将几何先验与语义知识深度融合的开放词汇三维分割框架。该工作的核心贡献在于,首次系统地将强大的视觉几何基础模型VGGT引入开放词汇理解任务,并通过创新的两阶段对比学习与特征蒸馏机制,有效桥接了几何感知与语义泛化之间的鸿沟。实验结果充分证明,该方法不仅在新场景的零样本泛化能力上取得突破,在需要少量样本适应的场景中也表现出色。
这项研究具有重要意义。在理论上,它为解决三维视觉中几何与语义的联合建模问题提供了新范式。在应用上,其强大的泛化能力使得模型能够快速适应真实世界中层出不穷的新物体和新环境,为开发更加智能、灵活的自主系统(如家庭服务机器人、无人驾驶汽车)提供了关键的技术支撑。该方法避免了传统神经渲染方法对每个新场景都需要重新训练的昂贵代价,朝着高效、通用的三维场景理解迈出了坚实的一步。未来,如何进一步降低计算需求,以及将框架扩展到动态场景和更复杂的交互任务中,将是值得探索的方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有