在计算机视觉与摄影测量的交叉领域,从视频数据中恢复三维场景结构是一项具有广泛应用前景的关键技术。本文旨在系统梳理基于视频的三维重建方法,重点关注两种核心范式:源于摄影测量的几何优化方法,以及面向实时应用的视觉同步定位与构图(Visual Simultaneous Localization and Mapping, V-SLAM)技术。理解这两类方法的本质差异、优势局限及其融合趋势,对于推动机器人导航、增强现实与数字孪生等应用至关重要。
视频三维重建的基础原理
视频序列为三维重建提供了连续且密集的视角采样,但同时也带来了帧间高冗余、运动模糊等独特挑战。其核心流程通常建立在一系列共同组件之上:特征检测与匹配、相机位姿估计、三角测量以及全局优化,最终可能通过稠密重建获取高细节模型。
运动恢复结构(Structure from Motion, SfM)是许多摄影测量流程的起点,它从一系列重叠图像中估计相机运动(位姿)并生成稀疏点云。标准SfM工作流包括特征检测与描述、跨视图特征匹配、几何验证(如对极几何约束),以及通过三角测量和增量式注册新视图来进行位姿与结构估计。为提高精度,SfM依赖于光束法平差(Bundle Adjustment, BA)来联合优化相机参数和三维点坐标,最小化重投影误差。尽管BA带来了高几何精度,但它也是计算成本高昂、难以实现实时运行的主要原因。当SfM应用于视频序列时,连续的帧提供了高重叠度和平滑的视角变化,这简化了跟踪并增加了匹配点数量。实践中,视频SfM流程常包含关键帧提取步骤,以减少冗余,仅保留那些能提供有效基线和新信息的帧,从而在保持几何稳定性的同时提升效率。
多视图立体(Multi-View Stereo, MVS)的目标是从多个重叠视图恢复稠密的三维几何,它通过估计每个像素(或图像块)的深度,并聚合这些估计来生成场景的稠密表示。与SfM主要从匹配的关键点生成稀疏点云不同,MVS旨在利用图像间的光度与几何一致性来“增密”重建。在典型的摄影测量流程中,MVS在SfM之后进行,因为它需要相对准确的相机位姿来约束深度估计。MVS的质量高度依赖于图像重叠度、基线分布、场景纹理和光照一致性。在视频工作流中,MVS受益于大量的候选帧,但对每一帧都进行稠密深度估计计算成本极高。因此,视频MVS通常依赖关键帧选择来确保足够的视点多样性,同时限制深度图计算的数量。
视觉里程计(Visual Odometry, VO)与视觉SLAM(V-SLAM)则侧重于在线、增量式的运动估计与地图构建。VO专注于估计相机随时间变化的相对运动,通常通过跟踪连续帧之间的特征或对齐图像强度来实现,能实时运行但会产生累积漂移。V-SLAM在VO的基础上,引入了建图与全局一致性机制。除了局部运动估计,V-SLAM维护一个持久的地图,并利用闭环检测和位姿图优化(及/或光束法平差)等全局优化技术,在重访已探索区域时减少漂移。因此,VO可被视为V-SLAM内部的一个核心模块,而V-SLAM增加了实现长期、全局一致定位与建图所需的组件。
视频三维重建方法的主要类别
根据主导策略,现有工作可大致分为四类:基于摄影测量的流程、在线建图的V-SLAM系统、融合神经先验的学习与混合方法,以及显式建模场景随时间变化结构的时空(四维)重建方法。
基于摄影测量的方法
这类方法将视频序列视为无序图像集的便捷替代品,通过关键帧提取减少冗余,然后使用经典的SfM-MVS工作流进行重建。这种方法通常是离线的,适用于重建质量优先于实时输出的场景。例如,有研究评估了使用智能手机视频对历史建筑进行三维重建的可行性,通过时间间隔或高级方法提取视频帧,再经SfM和MVS处理生成稠密点云。尽管经典SfM流程通常是离线的,但也有研究提出了单目增量式SfM方法,通过误匹配过滤、融合SIFT与ORB特征匹配等策略,旨在实现更快的处理速度,使摄影测量式重建接近实时应用。此外,超高分辨率(UHD)视频(如8K)的使用能显著提升点云密度和重建精度,但也带来了内存、算力和处理时间的巨大挑战。
视觉SLAM方法
V-SLAM方法在在线估计相机运动和构建地图的额外要求下处理视频重建,适用于机器人、AR/VR和移动测绘。一个奠基性的里程碑是PTAM,它将SLAM流程分离为并行的跟踪线程和建图线程,确立了基于关键帧的优化作为实时操作的实用策略。ORB-SLAM2是一个著名的特征-based V-SLAM系统,它包含三个并行线程:跟踪、局部建图和闭环闭合,能够实现地图重用、闭环校正和重定位。超越稀疏特征地图,近期工作越来越多地瞄准在保持在线操作的同时实现更稠密的重建。例如,VisFusion是一种视图感知的实时重建方法,从单目视频构建体素特征表示,并通过预测的可见性融合多视图特征,最终生成TSDF体积以提取表面。SimpleRecon则提供了一种不依赖昂贵3D卷积层的多视图深度估计方法,通过整合关键帧和几何元数据到成本体积估计中,在计算资源受限时仍能实现高质量重建。
学习与混合方法
近年来,研究越来越多地将深度学习与几何流程相结合,以提高在低纹理、运动模糊、动态物体等挑战性条件下的鲁棒性、完整性和计算效率。“混合”方法将经典组件与用于特征提取、深度估计、融合、关键帧选择或闭环检测的学习模块相结合。例如,NeuralRecon是一个从单目视频实时重建3D场景的框架,它使用稀疏TSDF体积表示表面,并通过GRU模块连续整合视频片段特征,在保持全局结构一致性的同时保留局部细节。DROID-SLAM将深度学习与传统V-SLAM结合,使用深度神经网络进行特征提取和深度估计,并采用稠密光束法平差优化相机位姿和3D地图点,其帧图表示支持高效的闭环和优化。针对动态环境,DynPL-SLAM等系统通过结合点与线特征,并利用场景相似性计算模型,显著提升了动态场景中的定位精度和实时性能。基于高斯表示的方法如GS-SLAM和DyGS-SLAM,使用3D高斯作为主要地图表示,结合语义分割与多视图几何过滤动态点,实现了动态环境中高质量稠密静态地图的构建。
时空(四维)重建方法
四维重建通过显式建模几何随时间的变化,扩展了静态三维重建,产生一系列时间上一致的3D形状。动态内容引入了非刚性运动、遮挡、拓扑变化等额外挑战。早期研究集中于多视角采集下的人体运动捕捉。近期工作探索了如何通过基于学习的组件减少对密集多视角系统的依赖,实现从更有限输入(如单目视频)中进行重建。例如,有方法基于可变形3D高斯,使用时空高斯表示从单视图输入建模场景动态。这类方法通常在学习到的时空表示背景下讨论,其中动态运动和外观通过优化一组随时间变化的紧凑基元来捕获。
从视频中提取关键帧
关键帧提取是许多视频三维重建方法中的关键步骤,旨在减少冗余并确保选择那些有助于提高最终重建精度的信息丰富的帧。视频序列通常包含大量高度冗余的帧,增加帧数并不一定能提高重建质量,反而可能因低质量帧引入外点并大幅增加计算成本。因此,选择一个紧凑且信息丰富的关键帧集通常比处理所有帧更有效。
关键帧选择策略多样:
- •
基于几何的策略:主要着眼于保持相机基线和视点多样性,同时维持足够的重叠以进行稳健匹配。例如,有方法针对带有地理标记的用户生成视频,利用地理数据选择空间覆盖冗余度最小的帧。
- •
基于质量的策略:剔除可能降低匹配或优化质量的帧,常用指标涉及模糊度、纹理内容、光照和特征轨迹稳定性。这些标准常作为基于几何选择前的预过滤器。
- •
传感器辅助策略:利用辅助测量(如IMU、GPS)来检测导致模糊的运动、减少冗余或估计视点变化,而无需昂贵的纯图像处理。例如,有研究使用配备IMU的相机捕获视频,并训练随机森林分类器,利用惯性数据识别无运动模糊的帧。
- •
基于学习的策略:旨在直接从数据中预测帧的效用。例如,有方法引入了基于学习的轻量级神经模型,编码当前SLAM状态并预测是否应将传入帧提升为关键帧,减少了对人工调整规则的依赖。注意力机制也被用于深度神经网络中,优先处理对重建最有用的高质量、独特帧。
关键帧提取与特征提取密切相关。特征提取的鲁棒性和可重复性直接影响相机位姿估计、光束法平差稳定性和重建几何的准确性。经典局部特征方法如SIFT、SURF和ORB因其对尺度、旋转和适度光照变化的不变性而被广泛使用。学习-based的检测器和描述符,如SuperPoint、R2D2,通过从数据中学习可重复的关键点和描述符,提高了在视点和外观变化下的鲁棒性。将自适应特征提取集成到关键帧选择中,可以在不牺牲重建质量的情况下进一步减少冗余并提高运行效率。
讨论与未来方向
视频三维重建在实际应用中面临准确性、密度与延迟、计算效率之间的权衡。摄影测量流程在需要度量精度和稠密表面质量时是首选,但计算量大,通常用于离线处理。V-SLAM系统优先考虑实时操作,适用于机器人和AR/VR,但地图通常较稀疏,长轨迹可能存在漂移。
该领域面临几个持续的开放性挑战:
- 1.
动态场景:移动物体会破坏数据关联和几何估计。学习与混合方法通过集成点线特征、语义分割和动态点过滤,正在改善动态环境下的处理能力。
- 2.
漂移与长期一致性:闭环检测和全局优化是解决V-SLAM长序列漂移的关键,但其有效性高度依赖于可靠的位置识别。结合高斯表示与多视图几何的混合方法显示出解决漂移问题的潜力。
- 3.
实时稠密重建:在保持高质量几何的同时实现实时稠密重建仍然是一个计算挑战。基于学习的方法,如NeuralRecon和VGGT系列,通过神经网络前向传播逐步细化3D表面或一次性推断场景属性,提供了更高效的解决方案,但在移动或嵌入式硬件上实现仍是瓶颈。
未来工作可能集中在缩小摄影测量的几何可靠性与V-SLAM的响应能力之间的差距。一个有希望的方向是开发混合流程,支持在线操作的同时,允许周期性地进行度量精度的细化。这种系统的成功取决于自适应策略,以控制处理多少视频流以及何时处理。
两个技术方向对可扩展性尤为重要:首先,自适应关键帧选择策略应超越固定速率采样,转而根据在明确计算预算下对位姿稳定性和模型完整性的预期贡献来选择帧。其次,选择性的、可靠性感知的特征提取应根据场景难度匹配处理过程,在必要时使用更强(可能是学习到的)特征,同时保留几何验证以保持一致性。
其他方向包括提高动态环境中的鲁棒性,其中语义过滤、运动一致性约束和背景修复有助于在处理移动物体时保持稳定的地图。多模态传感器融合可以减少在低纹理、光照差和快速运动情况下的失败案例。最后,该领域的进步将受益于更标准化的评估协议,不仅报告准确性,还报告在真实捕获条件下的鲁棒性、完整性、运行时间和故障模式。
结论
本综述全面探讨了基于视频的三维重建领域,指出该领域的未来在于克服平衡精度与实时性能的持久挑战。研究表明,视频重建的性能不仅取决于底层算法,还在很大程度上受数据管理方式的影响,特别是通过关键帧的仔细选择。高效的数据管理对于提高计算可行性和几何稳定性至关重要。对截至2024年底的SCOPUS期刊记录的文献计量分析显示,该领域持续受到关注,其中SfM文献量领先,V-SLAM和MVS紧随其后,而专注于视频的“视频测量”目前探索较少,但具有明显的未来增长潜力。尽管取得了重大进展,但管理动态内容、保持实时高质量几何以及防止大规模场景中的长期漂移等挑战仍然存在。混合系统在结合高精度方法与实时解决方案的优势方面显示出潜力,但这些方法仍需在自适应数据选择和复杂场景处理方面进行完善。标准化评估协议的建立将对推动技术进步、加速实时三维测绘技术在相关产业中的实际应用至关重要。