近年来,目标检测(OD)已成为计算机视觉应用的核心技术,其性能高度依赖高质量标注数据集。然而,即使是广泛使用的基准数据集(如 MS COCO、PASCAL VOC 等)也普遍存在边界框不准确、物体误分类、标签缺失等标注误差,尤其是定位误差会严重影响检测模型的训练与评估。为解决该问题,研究人员开展了一项以数据为中心的综述研究,系统回顾了目标检测数据集中标注错误的识别与分析现有方法。研究首次建立了面向目标检测的标准化标注错误分类体系,并对主流基准数据集进行了人工检查以量化常见错误。该工作为数据集质量评估与提升提供了统一框架,对推动可靠、鲁棒的目标检测系统发展具有重要意义。
广告
X
在自动驾驶、医疗影像、智能监控等人工智能应用飞速发展的今天,目标检测技术扮演着至关重要的角色。无论是识别道路上的车辆行人,还是在医学扫描图像中定位病灶,其背后都离不开大量经过精确标注的图像数据作为“燃料”。然而,一个长期被忽视的严峻现实是,这些驱动技术进步的“燃料”本身可能并不纯净。即使是像 MS COCO、PASCAL VOC 这样被全球研究者奉为圭臬的权威数据集,也潜藏着系统性的标注问题:边界框(Bounding Box)画得歪歪扭扭、把狗误标成猫、或者干脆漏掉了画面中本该被标注的物体。这些被称为“标注误差”的瑕疵,如同基石中的裂缝,会悄无声息地传导至依赖它们训练的模型,导致评估结果失真、模型表现不稳定,甚至在安全关键场景中埋下隐患。当学术界和工业界将大部分精力投入于设计更精巧的模型架构时,这篇发表在《ARTIFICIAL INTELLIGENCE REVIEW》上的综述文章旗帜鲜明地呼吁:是时候将目光转向数据本身了。研究者们开展了一项系统性、以数据为中心的调查,旨在全面梳理现有工作中用于识别、分析与纠正目标检测数据集标注错误的方法,为构建更可靠的人工智能基石提供路线图。