在标注信息稀缺的情况下进行互补性标签学习

时间：2025年11月18日

来源：Knowledge-Based Systems

编辑推荐：

针对标注数据稀缺的分类问题，提出TCU-CLL框架，利用低置信度信息生成互补标签，结合KL散度平衡和一致性正则化，有效提升分类性能并保证模型收敛。

在当今信息爆炸的时代，机器学习技术已经被广泛应用于各个领域，如图像识别、自然语言处理、医学诊断等。然而，许多实际任务的核心在于多类别分类问题，这类问题通常需要大量准确标注的数据作为训练基础。然而，数据标注的成本往往较高，尤其是在需要专业知识或大量人工干预的场景下，如医学图像分析或复杂场景下的图像分类任务。因此，如何在有限的标注数据基础上，仍然能够实现高性能的分类模型，成为研究者们关注的重点。

在这一背景下，弱监督学习（Weakly Supervised Learning, WSL）应运而生。WSL通过利用有限或不完全的标注信息，来训练机器学习模型，从而降低标注成本。具体而言，WSL包括多种方法，如半监督学习（Semi-Supervised Learning, SSL）、部分标签学习（Partial Label Learning）、噪声标签学习（Noisy Label Learning）、正样本未标注学习（Positive Unlabeled Learning）等。这些方法在不同应用场景中展现出了独特的价值，尤其是当完全标注的数据难以获取时。

其中，互补标签学习（Complementary Label Learning, CLL）作为一种新兴的弱监督学习方法，受到了越来越多研究者的关注。CLL的基本思想是：每个样本不直接标注其真实类别，而是标注其不归属于的类别。例如，在一个场景分类任务中，“湖”可以作为“蓝天”的互补标签。这种标签方式的优势在于，相较于真实标签的标注，互补标签的获取更为简便，尤其是在类别数量较多的情况下，标注者可以通过排除法快速确定互补标签，从而减少标注工作量。此外，由于互补标签本质上是样本未归属的类别，它们的获取成本通常低于真实标签，因此在标注资源有限的情况下，CLL具有显著的应用潜力。

尽管CLL方法在理论上具备优势，但在实际应用中仍然面临诸多挑战。首先，大规模数据集下，生成互补标签的效率问题尤为突出。传统方法往往需要耗费大量时间和人力，甚至依赖于领域专家的知识，这在实际操作中并不总是可行。其次，互补标签可能带来类别分布的不平衡问题，因为某些类别更容易被排除，而另一些类别则可能被频繁误标，导致模型训练过程中出现偏差。此外，由于互补标签的生成过程可能引入噪声，如何避免模型在训练过程中对这些噪声标签的过度依赖，从而防止过拟合，也是CLL方法需要解决的关键问题。

针对上述挑战，本文提出了一种新的CLL框架——TCU-CLL（Tightened Complementary Label Learning），旨在通过有限的真实标签和互补标签，结合大量未标注数据，实现高效的分类任务。TCU-CLL的核心创新点在于，它充分利用了通常被忽视的低置信度预测信息，从而更可靠地生成互补标签。这种方法不仅提高了标签生成的效率，还增强了模型对未标注数据的利用能力，使得分类任务在标注资源有限的情况下依然能够保持较高的准确性。

此外，为了应对互补标签可能带来的类别不平衡问题，TCU-CLL引入了一种基于Kullback-Leibler（KL）散度的平衡技术。KL散度是一种衡量两个概率分布差异的指标，能够有效捕捉类别之间的分布差异，并在训练过程中进行调整，以缓解类别不平衡对模型性能的影响。通过这一技术，TCU-CLL能够在不牺牲模型性能的前提下，更均衡地处理不同类别的数据。

在模型训练过程中，TCU-CLL还结合了弱数据增强策略，以提升模型的泛化能力。然而，数据增强过程可能会引入噪声或不一致的样本，因此，为了防止模型因弱数据增强而出现过拟合，TCU-CLL采用了一致性正则化策略。该策略通过强制模型对增强后的样本保持一致的预测结果，从而减少模型对特定数据增强方式的依赖，提高其鲁棒性。

为了确保模型的收敛性和稳定性，本文还推导了一个估计误差界，为TCU-CLL框架提供了理论上的支持。该误差界能够量化模型在训练过程中与真实风险之间的差距，从而为模型的优化提供了指导。通过理论分析和实验验证，本文证明了TCU-CLL框架在多种数据集上的有效性。特别是在标注比例仅为1%的情况下，TCU-CLL仍然能够获得与传统方法相当甚至更优的分类结果。

在实验部分，本文对TCU-CLL框架进行了全面的评估。首先，通过在多个基准图像数据集上与现有的CLL方法进行对比，验证了TCU-CLL在分类性能上的优越性。其次，通过在文本分类任务上的测试，进一步展示了该方法的泛化能力。此外，本文还分析了互补标签生成策略对模型性能的影响，探讨了不同策略在标签生成过程中的鲁棒性。最后，通过消融实验，验证了TCU-CLL框架中各个组件（如低置信度预测信息的利用、KL散度平衡技术、一致性正则化策略等）对模型性能的具体贡献。

从研究贡献来看，TCU-CLL框架在多个方面进行了创新。首先，它提出了一个统一的CLL框架，能够同时利用真实标签和互补标签，并通过低置信度预测信息的引入，提高了标签生成的可靠性。其次，通过结合KL散度平衡技术，TCU-CLL有效缓解了互补标签带来的类别不平衡问题。第三，该框架引入了一致性正则化策略，以应对弱数据增强可能带来的过拟合风险，从而增强了模型的鲁棒性。最后，TCU-CLL通过理论推导，为模型的收敛性提供了保障，并通过大量实验验证了其在实际任务中的有效性。

总体而言，TCU-CLL框架为解决标注资源有限下的多类别分类问题提供了一种新的思路。它不仅能够降低标注成本，还能够在大规模数据场景下保持较高的分类精度。此外，该框架的通用性使其适用于多种实际应用场景，如医学图像分析、自然语言处理、图像分类等。通过充分利用低置信度信息、引入KL散度平衡技术和一致性正则化策略，TCU-CLL在保持模型性能的同时，显著提高了标签生成的效率和模型的泛化能力。

未来的研究方向可能包括进一步优化标签生成策略，以提高互补标签的质量和多样性；探索更高效的平衡技术，以应对更复杂的类别分布；以及研究TCU-CLL框架在更多实际任务中的应用潜力。此外，如何在实际应用中更好地结合互补标签与真实标签，以实现更精准的分类，也是值得深入探讨的问题。随着标注成本的持续上升，以及数据量的不断增长，CLL方法及其改进框架如TCU-CLL将在未来的机器学习研究中扮演越来越重要的角色。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部