使用推土机进行铺路作业是现场土方施工中的关键活动之一。由于劳动力短缺和施工现场恶劣的工作环境,迫切需要采用自主式推土机。为了实现自动化,特别是要在施工现场的振动等干扰下对非结构化的土堆、场地表面、施工车辆等进行语义分割,以更好地理解其周围环境,这是非常必要的。然而,目前尚无针对推土机作业现场场景的语义分割应用的研究。
语义分割依赖于场景信息。激光雷达(LiDAR)是一种常用的感知传感器,在自动化感知项目中能够提供关于真实世界的精确空间信息[4]。然而,LiDAR数据的稀疏性和缺乏颜色信息限制了其性能[5]。相机是另一种常用的感知传感器[6][7],可以捕捉丰富的上下文信息(包括颜色),但它们缺乏深度信息。由于LiDAR和相机可以互补,因此融合这两种传感器的数据已成为自动驾驶中语义分割最有效的方法[8][9]。
迄今为止,许多自动驾驶系统都采用了相机和LiDAR作为主要感知传感器。这促使研究人员专注于通过激光雷达-相机融合进行语义分割,尤其是基于深度学习的方法[10]。在语义分割领域取得了显著进展,例如感知感知多传感器融合(PMF)[11]、多模态3D语义分割模型(MSeg3D)[12]、2D先验辅助语义分割(2DPASS)[13]等。然而,将这些方法应用于现场土方施工场景的研究仍然不足[14]。
在基于激光雷达-相机数据的自主推土机现场语义分割背景下,深度学习面临三个具体问题。首先,机器振动、扬起的灰尘和蒸汽等频繁的干扰源需要改进语义分割方法的抗干扰能力。其次,相机的视野(FOV)通常比LiDAR的视野窄。即使使用六个相机来实现360度全景视图,许多点仍然位于相机图像之外。当前的基于融合的语义分割方法由于相机数据不足而无法充分覆盖LiDAR信息[13]。在现场土方施工场景中,物体的颜色通常携带特定的工程信息,因此来自相机的颜色数据对于有效分割尤为重要。此外,对于常见的非结构化物体(如土堆),在没有额外信息辅助的情况下,从纯点云数据中提取特定特征非常具有挑战性。第三,目前还没有专门针对现场土方施工场景的点云和图像数据结合的语义分割数据集(如nuScenes[15]和SemanticKITTI[16]等[17])。由于不同类型场景之间的领域差异较大,基于现有数据集训练的深度学习网络难以准确解释现场土方施工场景的特征。
为了解决上述问题,我们旨在通过利用从现场土方施工现场收集的相机和LiDAR融合数据来改进语义分割网络。为此,我们设计了一个名为多模态辅助融合网络(MMANet)的新网络。本研究的主要创新点如下:
1)“像素到点”联合增强(PPJA):为了适应多干扰环境,我们设计了一种名为PPJA的数据增强技术用于训练。由于图像数据较为密集,在PPJA中,我们将图像中的冗余像素反投影到点云中以模拟噪声,从而增强多模态数据的抗干扰能力。
2)图特征聚合补充(GFAS)模块:施工现场施工机械的振动干扰显著影响点云数据的质量。为了解决这个问题,我们提出了一个名为GFAS的预处理模块来补充点云数据的原始特征。GFAS的灵感来源于基于点的点云网络RandLA-Net中的局部特征提取操作[18],并在资源效率方面进行了轻量级改进。在GFAS中,输入的点云被转换为一个有向无环图结构,从中提取并聚合额外的特征,从而在剧烈振动条件下全面探索点云结构。
3)多模态知识蒸馏融合(MMKDF):在MMANet中,我们设计了一个MMKDF模块。受到之前研究中新颖知识蒸馏策略的启发[13][19],MMKDF在增强3D模型的同时获取多尺度融合特征,并加入额外的跨模态知识。具体来说,MMKDF借鉴了范围-点-体素融合网络(RPVNet)[20]中的门控融合模块(GFM)的融合策略。在RPVNet中,GFM用于融合不同的点云数据进行分割。在MMKDF中,我们重新设计了GFM以融合来自相机和LiDAR的数据。因此,当相机输入有限时,可以从图像数据中提取的语义分割信息可以被融入网络,从而增强对工程信息和非结构化物体的理解。
4)创建现场数据集:如图1所示,我们从自主推土机的视角创建了一个现场土方施工场景的数据集。我们在天台土石坝使用推土机收集了大量的点云和图像融合数据。
我们进行了全面的实验来评估MMANet的有效性。我们将MMANet与其他竞争性语义分割网络在基准数据集和现场施工场景数据集上进行了比较。图2展示了我们方法的定性结果,MMAN在实地数据集上的平均交并比(mIoU)达到了76.1%。这些实验证明了我们研究的可行性。
本文的其余部分安排如下:第2节介绍相关工作;第3节详细介绍了提出的MMANet;第4节基于基准数据集和现场应用验证MMANet;第5节总结了研究结果。