快速的城市化进程和对智能交通管理需求的增加暴露了传统固定监控系统的固有局限性,这些系统往往无法在复杂的城市环境中提供实时的、细粒度的物体定位和物理尺寸估计(Bisio等人,2022年;Abbasi等人,2021年;An等人,2024年;Bakirci,2024年)。因此,无人机(UAV)凭借其灵活性、移动性和低部署成本,已成为空中监控、异常检测和度量级测量的有力替代方案(Telikani等人,2025年;Xu等人,2023年)。然而,正是这些使无人机具有优势的条件——高海拔视角、广域覆盖和动态飞行轨迹——也为可靠的感知带来了重大挑战。无人机图像通常受到空间分辨率低、物体分布密集和频繁遮挡的影响,这些因素严重阻碍了车辆计数、交通流量估计和基础设施检查等任务,而这些任务需要精确的定位和准确的物理测量(Mohsan等人,2023年;Tang等人,2023年)。
这些挑战的主要原因是,由于拍摄视角较高,无人机图像中的大多数物体看起来都非常小。这使无人机感知问题与计算机视觉中最持久且未解决的问题之一——小物体检测——相吻合。小物体包含的像素信息有限,表现出较大的尺度变化,并且容易受到杂乱、运动模糊或压缩伪影的遮挡,这使得它们难以可靠地定位和分类(Nikouei等人,2025年)。在航空图像中,这些困难进一步加剧,因为目标由于场景覆盖范围广和遮挡频率高而显得更小且分布更密集(Liu等人,2021年)。尽管存在这些挑战,小物体检测在自动驾驶、遥感、安全监控和城市监控中仍然至关重要,凸显了其科学和实际意义。
鉴于这些固有的困难,大量研究集中在增强小物体的多尺度表示和提高特征区分能力上。经典结构如特征金字塔网络(FPN)(Lin等人,2017a)和PANet(Liu等人,2018)支持有效的自上而下和自下而上的特征融合,而更先进的变体,包括BiFPN(Tan等人,2020)和NAS-FPN(Ghiasi等人,2019),进一步优化了跨尺度信息流和尺度感知能力。高分辨率主干网络(例如HRNet)(Wang等人,2020b)、可变形卷积(Dai等人,2017)、注意力机制和基于变压器的架构也增强了细粒度结构的建模,提高了在一般条件下的小物体检测鲁棒性。
与此同时,轻量级和计算效率高的检测器——包括MobileNet-SSD(Howard等人,2017)、ShuffleNet(Zhang等人,2018)和基于GhostNet的架构(Han等人,2020)、PP-PicoDet(Yu等人,2021)以及YOLO-Nano(Wong等人,2019)——证明了在资源受限硬件上进行实时推理的可行性。然而,尽管有这些进步,大多数现有模型在无人机图像上的性能仍然显著下降(Xia等人,2018),这是由于目标极其微小、空间排列密集、视角变化剧烈以及航空视频的固有低分辨率所致。此外,很少有研究关注面向测量的无人机应用的需求或嵌入式空中平台的严格延迟和效率限制,从而在通用小物体检测技术和无人机特定部署要求之间留下了明显差距。
从架构角度来看,传统的两阶段检测器——如R-CNN(Girshick等人,2014)、Fast R-CNN(Ren等人,2016)和Mask R-CNN(He等人,2017)——提供了高精度,但在实时无人机部署中计算成本过高。单阶段架构——包括YOLO(Redmon等人,2016;Redmon和Farhadi,2017;Redmon和Farhadi,2018;Bochkovskiy等人,2020;Li等人,2022a;Wang等人,2023)和SSD(Liu等人,2016)——提供了更高的效率,但由于语义表示有限和多尺度建模不足,其在小物体或遮挡物体上的性能会下降。最近的基于YOLO的变体试图通过架构改进、多尺度融合或任务特定增强来缓解这些限制。例如,Li等人(2024)通过多尺度融合改进了YOLOv5;Dong等人(2023)针对复杂场景优化了YOLOv4;Li等人(2023)使用Ghost模块和定制的损失函数增强了YOLOv8,以平衡精度和复杂性。Cao等人(2024)将三元组注意力集成到红外检测中,而Liu等人(2024)将ByteTrack与YOLOv8n结合用于车辆跟踪。尽管如此,这些方法要么为了精度牺牲了效率,要么未能满足无人机特定的鲁棒小物体检测、实时推理和度量聚焦应用的要求。
为了解决这些差距,我们提出了SSDM-YOLO(Style-aware Semantic Detection and Modeling),这是一个针对无人机图像的轻量级和测量导向的检测框架,“风格感知”表示对成像风格的建模和适应,这些风格变化主要源于照明、运动模糊、传感器特性和空中平台固有的高度依赖的分辨率的变化。SSDM-YOLO在多样化的空中成像条件下增强了语义表示,同时在资源受限的嵌入式设备上保持了实时效率,从而实现了准确的小物体检测和可靠的度量级测量,适用于基于无人机的应用。
本研究的主要贡献总结如下:
- 1.
面向无人机的轻量级主干网络:我们引入了SAGE-Net,这是一个紧凑的主干网络,旨在在无人机图像的约束下增强细粒度语义表示。通过整合二阶通道交互和全局上下文聚合,SAGE-Net有效地提高了对小型和密集分布物体的区分能力,同时保持了高计算效率。
- 2.
针对空中视觉变化的鲁棒归一化机制:我们提出了BI-DualN,这是一种双分支归一化策略,通过可学习的通道级门控自适应地融合批量归一化和实例归一化。通过稳定异构无人机成像条件下的特征统计,BI-DualN提高了表示的鲁棒性并增强了轻量级检测器的泛化能力。
- 3.
用于稳定定位的概率IoU公式:我们开发了PDIoU,这是一种基于概率IoU的回归损失,它结合了2-Wasserstein距离来缓解梯度饱和并提高定位稳定性,特别是对于在航空场景中频繁出现的小型或高度重叠的目标。
- 4.
支持度量级评估的投影标注无人机数据集:我们构建了一个带有基于投影的标注的无人机数据集,提供了具有物理意义的物体尺寸,使得评估超越了传统的2D边界框检测。该数据集支持面向测量的无人机应用,并促进了未来关于度量感知的研究。
- 5.
适用于实际无人机部署的统一轻量级检测框架:通过将SAGE-Net、BI-DualN和PDIoU集成到一个统一的架构中,SSDM-YOLO在精度、鲁棒性和效率之间取得了良好的平衡。该框架在嵌入式平台上实时运行,证明了其在实际无人机感知和监控任务中的强大适用性。
本文的其余部分组织如下:第2节回顾相关工作。第3节介绍所提出的框架。第4节描述数据集和实验设置。第5节报告和讨论结果,第6节总结论文并提出未来研究方向。