综述：学习以更少的数据去看：有限和不完美数据的计算机视觉研究综述

时间：2026年3月31日

来源：ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING

编辑推荐：

本文深度剖析了深度学习在计算机视觉中的核心矛盾：模型对大规模高质量标注数据的依赖与现实中数据常具“有限性”和“不完美性”之间的矛盾。作者系统性地将数据困境归纳为“稀缺”、“噪声”和“不平衡”三大挑战，并围绕其全面梳理了数据增强、合成数据生成、主动/课程学习、标签噪声处理、迁移/预训练学习（Transfer Learning/Pretraining）、元/少样本学习（Meta-Learning/Few-Shot Learning）、自监督学习等前沿应对策略。不同于以往孤立的研究综述，本文创新性地将这些挑战与方法纳入一个统一框架，并深入探讨了基准数据集、评估协议及伦理考量，旨在为构建鲁棒且数据高效（Data-Efficient）的视觉系统提供清晰的研究路线图，对医学影像、自动驾驶等数据获取成本高昂或困难的领域具有极强的指导意义。

在深度学习推动计算机视觉取得辉煌成就的今天，一个根本性的矛盾日益凸显：模型性能的提升高度依赖海量、高质量的标注数据，而在许多至关重要的实际应用场景中，获得这样的数据要么成本高昂，要么几无可能。这正是《学习以更少的数据去看：有限和不完美数据的计算机视觉研究综述》一文探讨的核心。本文将现实中的数据挑战归纳为三大类，并为应对这些挑战的系统性方法提供了一个全面的框架。

不完美和有限数据的分类学

首先，我们需要清晰地理解我们所面对的数据困境。文章将其系统性地划分为三个主要类别：

1.
数据稀缺：这是指训练样本本身数量有限。在医疗影像、工业检测、遥感等领域，专业标注的成本极高，或涉及隐私法规限制，使得构建大规模标注数据集异常困难。例如，诊断罕见疾病或检测工业缺陷时，正样本往往极少。
2.
噪声数据：数据本身（如图像）或标注（如标签）存在不准确之处。这在众包标注、自动化标注或存在主观性的标注任务（如医学诊断）中尤为常见。深度神经网络强大的记忆能力可能导致其“记住”噪声标签，从而严重损害模型的泛化能力。
3.
不平衡数据：数据集中各类别的样本数量严重不均，即所谓的长尾分布。在欺诈检测、野生动物保护等任务中，关键事件（少数类）的发生频率远低于普通事件（多数类），导致模型偏向多数类，对少数类的识别性能低下。

用更少的数据学习的技术

面对这些挑战，研究界发展出了两大类应对策略：数据中心方法和模型中心方法。

数据中心的解决之道

这类方法旨在从数据本身入手，改善其质量、多样性和可用性。

•
数据增强与合成数据生成：最基本的手段是对现有图像进行翻转、旋转、裁剪、颜色抖动等变换，以廉价地增加数据多样性。更高级的生成模型，如生成对抗网络（GANs）和变分自编码器（VAEs），能够“创造”出逼真的新图像，特别是用于补充稀缺的少数类样本。其背后的数学原理在于GAN的极小极大博弈和VAE对证据下界（ELBO）的最大化。此外，利用虚拟仿真环境（如自动驾驶模拟器）生成带完美标注的合成数据，也是应对极端或危险场景数据稀缺的有效途径，尽管需要解决“现实差距”问题。
•
主动学习与课程学习：主动学习的核心思想是“聪明地标注”。它通过不确定性采样、查询委员会等方法，智能地选择信息量最大的未标注样本交由人类专家标注，从而用最小的标注成本获得最大的模型性能提升。课程学习则模拟人类学习过程，让模型从易到难地接触训练样本，或通过自步学习（Self-Paced Learning）动态调整学习进度，这有助于模型更稳定地收敛，避免陷入不良的局部最优解。
•
标签噪声处理技术：针对标注错误，研究者提出了损失修正、噪声转移矩阵估计等方法。更鲁棒的训练框架如“协同教学”（Co-teaching）和“导师网络”（MentorNet）也显示出强大效果。Co-teaching通过训练两个网络，并让它们相互为对方挑选“干净”（低损失）的样本来学习，从而避免模型被噪声标签带偏。其核心假设是，干净样本的损失通常小于噪声样本。

模型中心的智慧

这类方法通过改进学习算法和模型架构本身，来增强从有限或不完美数据中学习的能力。

•
迁移学习与预训练：这是目前应对数据稀缺最主流、最有效的策略之一。其思想是利用在大型通用数据集（如ImageNet）上预训练的模型所习得的通用视觉特征，通过微调（Fine-tuning）或轻量级适配器，快速适应到数据有限的目标领域（如医疗影像）。公式化地，这通常涉及最小化目标域数据上的损失函数，同时可能只更新部分网络参数或添加适配模块。自监督预训练（如通过预测图像旋转等“前置任务”）进一步减少了对标注数据的依赖。
•
元学习与少样本学习：元学习，即“学会学习”，旨在让模型获得快速适应新任务的能力。模型无关元学习（MAML）是其中的代表，它通过双层优化（内循环针对特定任务快速适应，外循环跨任务优化初始参数）来寻找一个对任务变化敏感的模型参数初始点，使得在新任务上仅需少量梯度步就能达到良好性能。原型网络（Prototypical Networks）等基于度量的方法，则通过学习一个嵌入空间，使得同类样本彼此靠近，异类样本相互远离，从而仅凭少数支持样本（Support Examples）就能对查询样本（Query）进行分类。这些方法通常在N-way K-shot的设置下进行评估，要求模型仅凭每个类别K个示例来区分N个类别。

迈向鲁棒与数据高效的未来

这篇综述的独特价值在于，它没有孤立地看待数据稀缺、噪声和不平衡等问题，而是将它们置于一个统一的框架下进行讨论，并强调了基准数据集、标准化评估协议以及伦理考量的重要性。例如，在医疗AI等高风险领域，模型的公平性和对数据偏差的鲁棒性至关重要。

综上所述，在数据不再“完美”和“充沛”的现实约束下，计算机视觉的研究前沿正从单纯追求更大模型、更多数据，转向如何更智能、更高效地利用有限且不完美的数据。从数据增强到生成模型，从主动学习到元学习，这一系列技术共同描绘了一条通往更实用、更鲁棒的视觉智能系统的道路，为自动驾驶、精准医疗、工业质检等关键领域的落地应用扫清了数据层面的障碍。未来的研究将继续探索这些方法的深度融合，以及在更复杂、更动态的真实世界场景中的有效性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部