一种轻量级且稳健的框架，用于在无人机图像中进行小目标检测

生物通首页 > 今日动态 > 正文

一种轻量级且稳健的框架，用于在无人机图像中进行小目标检测

时间：2026年3月20日

来源：Computer Vision and Image Understanding

编辑推荐：

提升无人机小目标检测精度的轻量级框架研究，通过SAGE-Net增强语义表征，BI-DualN优化特征归一化，PDIoU改进目标回归，在多个航拍数据集上实现高精度实时检测。

Jinjiang Liu|Yonghua Xie|Jincong Wang

东北林业大学计算机与控制工程学院，中国哈尔滨 150040

摘要

由于空间分辨率低、背景复杂以及轻量级模型的语义能力有限，在无人机图像中检测小型、密集和遮挡的物体仍然具有挑战性。为了解决这些问题，我们提出了SSDM-YOLO（Style-aware Semantic Detection and Modeling的缩写），这是一个轻量级且实时的无人机检测框架，旨在提高空中成像条件下的细粒度语义表示和定位的鲁棒性。其核心是SAGE-Net（Star Enhanced Global Encoding Network），该网络结合了SO-Block来建模显式的二阶通道交互，并通过全局增强模块聚合多尺度上下文信息，从而提高对微小目标的区分能力。为了解决异构无人机图像中特征统计的不稳定性，我们引入了Batch-Instance Dual Normalization（BI-DualN），这是一种通过通道级门控融合批量级语义和实例级外观的自适应归一化方法。此外，我们还开发了Probabilistic Distance-IoU（PDIoU）来缓解梯度饱和并提高对小型和高度重叠物体的回归稳定性。在VisDrone2019基准测试中，SSDM-YOLO仅使用2.6M参数就实现了39.6%的mAP@0.5，性能优于YOLOv8n，同时在Jetson Orin Nano上保持了98 FPS的帧率。为了评估其鲁棒性和实际应用能力，我们还在UAVDT、DOTA以及一个新收集的用于度量感知的投影标注无人机数据集上对SSDM-YOLO进行了测试。该模型在这些不同的空中场景中始终表现出强大的性能，证明了其泛化能力和适用于实时无人机部署的特点。数据集（DOI：10.5281/zenodo.15395031）和源代码（https://github.com/liuliuliu2002/SSDM-YOLO）均可公开获取。

引言

快速的城市化进程和对智能交通管理需求的增加暴露了传统固定监控系统的固有局限性，这些系统往往无法在复杂的城市环境中提供实时的、细粒度的物体定位和物理尺寸估计（Bisio等人，2022年；Abbasi等人，2021年；An等人，2024年；Bakirci，2024年）。因此，无人机（UAV）凭借其灵活性、移动性和低部署成本，已成为空中监控、异常检测和度量级测量的有力替代方案（Telikani等人，2025年；Xu等人，2023年）。然而，正是这些使无人机具有优势的条件——高海拔视角、广域覆盖和动态飞行轨迹——也为可靠的感知带来了重大挑战。无人机图像通常受到空间分辨率低、物体分布密集和频繁遮挡的影响，这些因素严重阻碍了车辆计数、交通流量估计和基础设施检查等任务，而这些任务需要精确的定位和准确的物理测量（Mohsan等人，2023年；Tang等人，2023年）。

这些挑战的主要原因是，由于拍摄视角较高，无人机图像中的大多数物体看起来都非常小。这使无人机感知问题与计算机视觉中最持久且未解决的问题之一——小物体检测——相吻合。小物体包含的像素信息有限，表现出较大的尺度变化，并且容易受到杂乱、运动模糊或压缩伪影的遮挡，这使得它们难以可靠地定位和分类（Nikouei等人，2025年）。在航空图像中，这些困难进一步加剧，因为目标由于场景覆盖范围广和遮挡频率高而显得更小且分布更密集（Liu等人，2021年）。尽管存在这些挑战，小物体检测在自动驾驶、遥感、安全监控和城市监控中仍然至关重要，凸显了其科学和实际意义。

鉴于这些固有的困难，大量研究集中在增强小物体的多尺度表示和提高特征区分能力上。经典结构如特征金字塔网络（FPN）（Lin等人，2017a）和PANet（Liu等人，2018）支持有效的自上而下和自下而上的特征融合，而更先进的变体，包括BiFPN（Tan等人，2020）和NAS-FPN（Ghiasi等人，2019），进一步优化了跨尺度信息流和尺度感知能力。高分辨率主干网络（例如HRNet）（Wang等人，2020b）、可变形卷积（Dai等人，2017）、注意力机制和基于变压器的架构也增强了细粒度结构的建模，提高了在一般条件下的小物体检测鲁棒性。

与此同时，轻量级和计算效率高的检测器——包括MobileNet-SSD（Howard等人，2017）、ShuffleNet（Zhang等人，2018）和基于GhostNet的架构（Han等人，2020）、PP-PicoDet（Yu等人，2021）以及YOLO-Nano（Wong等人，2019）——证明了在资源受限硬件上进行实时推理的可行性。然而，尽管有这些进步，大多数现有模型在无人机图像上的性能仍然显著下降（Xia等人，2018），这是由于目标极其微小、空间排列密集、视角变化剧烈以及航空视频的固有低分辨率所致。此外，很少有研究关注面向测量的无人机应用的需求或嵌入式空中平台的严格延迟和效率限制，从而在通用小物体检测技术和无人机特定部署要求之间留下了明显差距。

从架构角度来看，传统的两阶段检测器——如R-CNN（Girshick等人，2014）、Fast R-CNN（Ren等人，2016）和Mask R-CNN（He等人，2017）——提供了高精度，但在实时无人机部署中计算成本过高。单阶段架构——包括YOLO（Redmon等人，2016；Redmon和Farhadi，2017；Redmon和Farhadi，2018；Bochkovskiy等人，2020；Li等人，2022a；Wang等人，2023）和SSD（Liu等人，2016）——提供了更高的效率，但由于语义表示有限和多尺度建模不足，其在小物体或遮挡物体上的性能会下降。最近的基于YOLO的变体试图通过架构改进、多尺度融合或任务特定增强来缓解这些限制。例如，Li等人（2024）通过多尺度融合改进了YOLOv5；Dong等人（2023）针对复杂场景优化了YOLOv4；Li等人（2023）使用Ghost模块和定制的损失函数增强了YOLOv8，以平衡精度和复杂性。Cao等人（2024）将三元组注意力集成到红外检测中，而Liu等人（2024）将ByteTrack与YOLOv8n结合用于车辆跟踪。尽管如此，这些方法要么为了精度牺牲了效率，要么未能满足无人机特定的鲁棒小物体检测、实时推理和度量聚焦应用的要求。

为了解决这些差距，我们提出了SSDM-YOLO（Style-aware Semantic Detection and Modeling），这是一个针对无人机图像的轻量级和测量导向的检测框架，“风格感知”表示对成像风格的建模和适应，这些风格变化主要源于照明、运动模糊、传感器特性和空中平台固有的高度依赖的分辨率的变化。SSDM-YOLO在多样化的空中成像条件下增强了语义表示，同时在资源受限的嵌入式设备上保持了实时效率，从而实现了准确的小物体检测和可靠的度量级测量，适用于基于无人机的应用。

本研究的主要贡献总结如下：

1.
面向无人机的轻量级主干网络：我们引入了SAGE-Net，这是一个紧凑的主干网络，旨在在无人机图像的约束下增强细粒度语义表示。通过整合二阶通道交互和全局上下文聚合，SAGE-Net有效地提高了对小型和密集分布物体的区分能力，同时保持了高计算效率。
2.
针对空中视觉变化的鲁棒归一化机制：我们提出了BI-DualN，这是一种双分支归一化策略，通过可学习的通道级门控自适应地融合批量归一化和实例归一化。通过稳定异构无人机成像条件下的特征统计，BI-DualN提高了表示的鲁棒性并增强了轻量级检测器的泛化能力。
3.
用于稳定定位的概率IoU公式：我们开发了PDIoU，这是一种基于概率IoU的回归损失，它结合了2-Wasserstein距离来缓解梯度饱和并提高定位稳定性，特别是对于在航空场景中频繁出现的小型或高度重叠的目标。
4.
支持度量级评估的投影标注无人机数据集：我们构建了一个带有基于投影的标注的无人机数据集，提供了具有物理意义的物体尺寸，使得评估超越了传统的2D边界框检测。该数据集支持面向测量的无人机应用，并促进了未来关于度量感知的研究。
5.
适用于实际无人机部署的统一轻量级检测框架：通过将SAGE-Net、BI-DualN和PDIoU集成到一个统一的架构中，SSDM-YOLO在精度、鲁棒性和效率之间取得了良好的平衡。该框架在嵌入式平台上实时运行，证明了其在实际无人机感知和监控任务中的强大适用性。

本文的其余部分组织如下：第2节回顾相关工作。第3节介绍所提出的框架。第4节描述数据集和实验设置。第5节报告和讨论结果，第6节总结论文并提出未来研究方向。

章节片段

适用于无人机应用的轻量级检测框架

在无人机平台上部署物体检测器需要能够在严格的延迟、内存和功耗约束下保持高精度的模型。轻量级架构通常遵循两种主要策略：结构重新参数化和高效的多尺度聚合。例如MobileOne（Vasu等人，2023）和基于RepVGG的网络（Ding等人，2021）利用可重新参数化的训练-推理解耦来实现高吞吐量，而不增加推理复杂性。

SSDM-YOLO模型的架构

YOLOv8n是一个有效的轻量级基线，用于实时物体检测；然而，由于背景复杂、运动模糊、照明变化和密集分布的小物体的普遍存在，其在无人机图像中的性能会下降。这些因素限制了其保持细粒度语义信息的能力，并导致边界框回归不稳定。同时，机上无人机平台的受限计算资源限制了使用更深层次或更复杂模型的能力

数据集

为了全面评估鲁棒性、泛化能力和度量感知能力，我们在四个数据集上评估了SSDM-YOLO，包括一个主要的检测基准（VisDrone2019）、两个跨领域的航空数据集（UAVDT和DOTA）以及一个新构建的带有度量标注的无人机数据集。

与最先进检测器的整体比较

表7和图11提供了SSDM-YOLO与VisDrone2019数据集上最先进的物体检测模型的比较分析，涵盖了基于锚点的、无锚点的和基于变压器的方法。与传统的基于CNN的方法（如YOLOv5m和Faster-RCNN）相比，SSDM-YOLO在mAP@0.5方面提高了4.6–6.7%，同时保持了显著更少的参数（2.6M）和更低的FLOPs（6.7 GFLOPs），证明了其在实时无人机小物体检测方面的效率

局限性和边界分析

尽管在中等模糊和低光照条件下展示了改进的鲁棒性，但在极端成像场景下，SSDM-YOLO的性能仍然会下降。特别是，我们定量分析了VisDrone2019上的两个代表性失败情况：（i）极低光照场景和（ii）由密集物体重叠引起的严重遮挡。相应的子集是从VisDrone验证集中选择的具有极低光照的场景

结论

本研究通过提出SSDM-YOLO来解决在无人机图像中检测小型、密集和遮挡物体的挑战，这是一个为航空视觉感知量身定制的轻量级检测框架。该框架整合了三个互补的组件。首先，SAGE-Net通过二阶通道交互建模结合多尺度全局上下文编码增强了细粒度语义表示。其次，BI-DualN引入了一种自适应归一化策略，提高了