MMANet：一种用于现场土方施工场地中自主推土机的语义分割融合网络

时间：2026年3月15日

来源：Neurocomputing

编辑推荐：

自主推土机施工场景中基于LiDAR-摄像头融合的语义分割网络MMANet，提出像素到点云联合增强、图特征聚合和跨模态知识蒸馏融合模块，构建16场景专用数据集，在nuScenes和自建场景中mIoU分别达80.6%、79.5%和76.1%，优于U2MKD等基准模型。

高浩军|王佳俊|王晓玲|李东泽|孟向云|卢坤坤|邓乐

中国天津市，水利工程智能建造与运行国家重点实验室，300072

摘要

自主式推土机代表了现场土方施工领域的尖端技术，而语义分割对于它们对周围环境的理解至关重要。然而，由于复杂的干扰因素、特定的工程信息以及施工场景中的非结构化物体，这一技术仍面临诸多挑战。为了解决这些问题，我们开发了一种用于激光雷达-相机数据的语义分割网络，称为多模态辅助融合网络（MMANet）。为了适应现场土方施工中的复杂干扰，我们实现了一种“像素到点”的联合增强技术，将冗余的图像数据反投影到三维格式中，从而提高了网络对噪声数据的抗干扰能力。此外，为了减轻振动干扰的影响，我们提出了一个图特征聚合模块，从点云中提取额外的特征。最后，我们提出了一个多模态知识蒸馏融合模块，通过利用跨模态知识来提升网络对工程信息和非结构化物体的理解能力。为了验证MMANet的有效性，我们建立了一个包含16个场景的现场激光雷达-相机语义分割数据集，据我们所知，这是首个此类数据集。MMANet表现出色，在nuScenes验证数据集和测试数据集上的平均交并比（mIoU）分别为80.6%和79.5%，在实地数据集上的mIoU为76.1%，超越了U2MKD、MSeg3D、2DPASS、EPMF、RandLA-Net和Cylinder3D等网络。

引言

使用推土机进行铺路作业是现场土方施工中的关键活动之一。由于劳动力短缺和施工现场恶劣的工作环境，迫切需要采用自主式推土机。为了实现自动化，特别是要在施工现场的振动等干扰下对非结构化的土堆、场地表面、施工车辆等进行语义分割，以更好地理解其周围环境，这是非常必要的。然而，目前尚无针对推土机作业现场场景的语义分割应用的研究。

语义分割依赖于场景信息。激光雷达（LiDAR）是一种常用的感知传感器，在自动化感知项目中能够提供关于真实世界的精确空间信息[4]。然而，LiDAR数据的稀疏性和缺乏颜色信息限制了其性能[5]。相机是另一种常用的感知传感器[6][7]，可以捕捉丰富的上下文信息（包括颜色），但它们缺乏深度信息。由于LiDAR和相机可以互补，因此融合这两种传感器的数据已成为自动驾驶中语义分割最有效的方法[8][9]。

迄今为止，许多自动驾驶系统都采用了相机和LiDAR作为主要感知传感器。这促使研究人员专注于通过激光雷达-相机融合进行语义分割，尤其是基于深度学习的方法[10]。在语义分割领域取得了显著进展，例如感知感知多传感器融合（PMF）[11]、多模态3D语义分割模型（MSeg3D）[12]、2D先验辅助语义分割（2DPASS）[13]等。然而，将这些方法应用于现场土方施工场景的研究仍然不足[14]。

在基于激光雷达-相机数据的自主推土机现场语义分割背景下，深度学习面临三个具体问题。首先，机器振动、扬起的灰尘和蒸汽等频繁的干扰源需要改进语义分割方法的抗干扰能力。其次，相机的视野（FOV）通常比LiDAR的视野窄。即使使用六个相机来实现360度全景视图，许多点仍然位于相机图像之外。当前的基于融合的语义分割方法由于相机数据不足而无法充分覆盖LiDAR信息[13]。在现场土方施工场景中，物体的颜色通常携带特定的工程信息，因此来自相机的颜色数据对于有效分割尤为重要。此外，对于常见的非结构化物体（如土堆），在没有额外信息辅助的情况下，从纯点云数据中提取特定特征非常具有挑战性。第三，目前还没有专门针对现场土方施工场景的点云和图像数据结合的语义分割数据集（如nuScenes[15]和SemanticKITTI[16]等[17]）。由于不同类型场景之间的领域差异较大，基于现有数据集训练的深度学习网络难以准确解释现场土方施工场景的特征。

为了解决上述问题，我们旨在通过利用从现场土方施工现场收集的相机和LiDAR融合数据来改进语义分割网络。为此，我们设计了一个名为多模态辅助融合网络（MMANet）的新网络。本研究的主要创新点如下：1)

“像素到点”联合增强（PPJA）：为了适应多干扰环境，我们设计了一种名为PPJA的数据增强技术用于训练。由于图像数据较为密集，在PPJA中，我们将图像中的冗余像素反投影到点云中以模拟噪声，从而增强多模态数据的抗干扰能力。

图特征聚合补充（GFAS）模块：施工现场施工机械的振动干扰显著影响点云数据的质量。为了解决这个问题，我们提出了一个名为GFAS的预处理模块来补充点云数据的原始特征。GFAS的灵感来源于基于点的点云网络RandLA-Net中的局部特征提取操作[18]，并在资源效率方面进行了轻量级改进。在GFAS中，输入的点云被转换为一个有向无环图结构，从中提取并聚合额外的特征，从而在剧烈振动条件下全面探索点云结构。

多模态知识蒸馏融合（MMKDF）：在MMANet中，我们设计了一个MMKDF模块。受到之前研究中新颖知识蒸馏策略的启发[13][19]，MMKDF在增强3D模型的同时获取多尺度融合特征，并加入额外的跨模态知识。具体来说，MMKDF借鉴了范围-点-体素融合网络（RPVNet）[20]中的门控融合模块（GFM）的融合策略。在RPVNet中，GFM用于融合不同的点云数据进行分割。在MMKDF中，我们重新设计了GFM以融合来自相机和LiDAR的数据。因此，当相机输入有限时，可以从图像数据中提取的语义分割信息可以被融入网络，从而增强对工程信息和非结构化物体的理解。

创建现场数据集：如图1所示，我们从自主推土机的视角创建了一个现场土方施工场景的数据集。我们在天台土石坝使用推土机收集了大量的点云和图像融合数据。

我们进行了全面的实验来评估MMANet的有效性。我们将MMANet与其他竞争性语义分割网络在基准数据集和现场施工场景数据集上进行了比较。图2展示了我们方法的定性结果，MMAN在实地数据集上的平均交并比（mIoU）达到了76.1%。这些实验证明了我们研究的可行性。

本文的其余部分安排如下：第2节介绍相关工作；第3节详细介绍了提出的MMANet；第4节基于基准数据集和现场应用验证MMANet；第5节总结了研究结果。

提出的多模态辅助融合网络用于施工场景理解

在本节中，我们介绍了MMANet的架构，如图4所示。给定原始的点云和图像数据，我们首先应用基于点对点对应的PPJA来增强输入数据。然后，使用一个包含相机流和LiDAR流的双流网络并行提取两种模态的多尺度感知特征。同时，使用GFAS模块在将数据输入之前补充点云数据的特征。

案例研究与讨论

在本节中，我们通过实证评估了MMANet的性能。我们将MMANet与4种强大的方法进行了比较，分别是2DPASS、Cylinder3D、RandLA-Net、MSeg3D、PMF[56]和U2MKD[57]。这些方法具有代表性。其中，2DPASS和U2MKD是使用知识蒸馏的最新技术网络，用于验证我们提出的MMKDF。MSeg3D也是点云和图像融合数据的最新语义分割方法之一。

结论

本研究介绍了一种名为MMANet的新语义分割网络，该网络利用激光雷达-相机融合数据来提升现场土方施工中推土机的自主运行能力。提出的PPJA和GFAS组件显著提高了网络对施工现场典型挑战条件的适应性。此外，MMKDF模块为解释工程信息的复杂性提供了有效的解决方案。

CRediT作者贡献声明

王佳俊：撰写 – 审稿与编辑、监督、项目管理、资金获取。高浩军：撰写 – 审稿与编辑、初稿撰写、可视化、验证、软件开发、资源管理、方法论、调查、正式分析、数据管理。李东泽：数据管理。王晓玲：监督、项目管理、资金获取。卢坤坤：数据管理。孟向云：数据管理。邓乐：数据管理。