小目标检测的研究背景
在计算机视觉领域,目标检测是一项至关重要的任务,它承担着对图像和视频中的物体进行分类与定位的职责,是众多复杂视觉处理过程的基石。随着深度学习的兴起以及大量数据集的涌现,目标检测技术取得了长足进步。
小目标检测作为目标检测的一个重要分支,致力于识别特定尺寸阈值以下的物体。在实际应用中,小目标检测具有广泛的应用场景,例如在监控领域,可用于识别远处或微小的异常物体;在无人机(UAV)场景分析中,有助于检测小型的障碍物或目标;在自动驾驶中,对交通标志和行人的检测也离不开小目标检测技术。
目前,小目标的定义主要有两种。一种基于绝对尺寸,如在目标检测常用的 MS COCO 数据集中,将分辨率小于 32×32 像素的物体认定为小目标;另一种基于物体与图像的相对大小,小于图像尺寸 10% 甚至更小的物体被视为小目标。然而,大多数目标检测模型在检测小目标时,其精度明显低于检测中大型物体。以 COCO 测试开发集为例,DyHead 模型对小目标的平均精度(AP)仅为 28.3%,与中大型物体的 AP 值(分别为 50.3% 和 57.5%)相比差距显著。
小目标在图像中通常占比小,导致目标区域的特征表示较为稀疏,特征质量较低,这给目标检测带来了很大挑战。为应对这一难题,研究人员借鉴多级推理在视觉领域的成功应用,尝试利用多尺度特征来提升小目标检测性能。在基于深度卷积神经网络(CNN)的目标检测方法中,骨干网络一般会通过多个卷积层来提取多尺度特征信息,生成不同分辨率的特征图,类似金字塔结构,如 SSD 方法。浅层特征图分辨率高,能捕捉到更精细的细节和定位线索,但易受光照、变形和物体姿态变化的影响;深层特征图则包含更多语义和上下文信息,不过在网络的前向传播过程中,浅层的一些有价值特征信息可能会被改变、削弱甚至丢失。因此,有效的目标检测需要将详细特征和语义(上下文)信息相结合,而特征融合技术能够将不同尺度的特征图合并,增强整体特征表示,进而提高检测性能。
MCFN 网络的设计
为了增强模型获取小目标多尺度特征信息的能力,并促进浅层和深层特征图的融合,研究人员提出了多尺度特征提取与跨阶段特征融合网络(MCFN)。该网络主要由骨干网络、颈部网络和检测头三部分组成。
在特征提取方面,研究人员开发了多尺度特征提取模块(MSFE)。MSFE 模块采用 CSP 架构,其中一个分支会经过多个瓶颈层,帮助模型获取多尺度特征表示,其输出会与另一个分支的输出进行拼接。此外,MSFE 模块还引入了注意力机制,该机制能够使模型更加关注多个位置,增强对特征重要性的感知,从而在不同尺度上捕捉丰富的物体细节,显著提升模型准确识别小目标的能力。
为了实现不同层特征图的融合,增强浅层和深层特征之间的交互,研究人员引入了跨阶段特征金字塔网络(CSFPN)。CSFPN 可以促进不同阶段的特征交互,有效融合不同尺度的特征图。通过双向传播机制,它能够更有效地捕捉全局和局部特征之间的关系,生成的特征图可以在精细细节和抽象语义表示之间取得良好平衡,提升整体检测性能,尤其是对小目标的检测效果。
实验验证
在实验环节,研究人员首先介绍了用于评估 MCFN 方法的数据集以及实验设置,并给出了小目标检测相关的评估指标。
研究人员将 MCFN 与主流和最先进的方法在 VisDrone-DET2019 和 constellation 等数据集上进行对比。结果显示,MCFN 在小目标检测方面表现卓越,优于其他主流检测器。研究人员还对实验结果进行了可视化处理,直观地展示了 MCFN 在小目标检测中的有效性。
为了进一步探究 MSFE 和 CSFPN 模块各自的贡献,研究人员进行了消融实验。实验结果表明,这两个模块对于提升 MCFN 的小目标检测性能都起到了关键作用,它们相互配合,共同增强了模型对小目标特征的提取和融合能力。
研究结论与展望
本文提出的 MCFN 网络为高性能小目标检测提供了新的解决方案。MSFE 模块和 CSFPN 模块的引入,有效解决了以往小目标检测方法在多尺度特征提取和特征融合方面存在的不足。
然而,该研究也存在一定的局限性。例如,MSFE 对特征图的处理可能会导致冗余信息增加,进而提升后续处理步骤的复杂度。随着 Transformer 架构在图像处理领域受到广泛关注,未来可以探索如何将 Transformer 模型与多尺度特征提取相结合,进一步优化小目标检测算法,提高检测精度和效率,为相关应用领域带来更好的技术支持。