用于对比聚类的多原型表示学习

时间：2026年3月9日

来源：Pattern Recognition Letters

编辑推荐：

本文提出一种基于多原型表示的对比聚类方法，通过样本与原型交互优化相似性关系学习。该方法首先采用高置信度聚类标签生成多个高斯采样原型，再构建基于原型相似性的样本关系矩阵，最后通过特征表示损失和聚类损失协同优化，显著提升聚类性能。实验表明在CIFAR-10/100等多数据集上优于现有方法。

赵云晓|郭叶成|岳琴|白亮

中国山西省太原市山西大学智能信息处理研究所，030006

摘要

近期的对比聚类方法展现出了显著的性能。对比聚类方法采用多种策略来学习样本之间的相似关系，作为额外的监督信息来训练模型。然而，由于缺乏标签信息，对比聚类算法中学习到的相似关系质量总是较差，从而限制了这些算法的性能。我们提出了一种具有多原型聚类表示的对比聚类方法来解决这一问题。该方法通过样本-原型交互来细化样本间关系的学习。具体来说，我们首先提出了一个原型生成模块来获得高质量的原型。为了实现稳健的聚类表示，我们采用高斯采样为每个聚类生成多个原型。然后我们采用相似关系构建模块将样本与原型之间的关系转换为样本之间的关系。最后，我们通过引入两种损失函数在上述监督信息的指导下训练模型，以获得更紧凑的特征和聚类分配。我们的方法在几个常用的基准测试中取得了有竞争力的结果。代码可在以下链接获取：http://github.com/zyxforever/MPCC.git

引言

聚类是机器学习和数据挖掘中的一个关键研究任务，其目标是将未标记的数据分类到不同的聚类中，使得同一聚类内的对象具有高相似性，而不同聚类内的对象则不相似。早期的聚类方法，如K-Means [1]、谱聚类 [2] 和子空间聚类 [3]、[4]，已经取得了显著的成果。然而，数据量的指数级增长导致了大型、高维和复杂数据集的出现。由于早期聚类算法的表示能力有限，它们在处理这些数据集时遇到了困难。因此，利用深度神经网络 [5] 强大的特征表示能力来实现有效的聚类已成为一个紧迫的挑战。

对比聚类算法将聚类目标纳入对比学习框架中。例如，通过引入聚类级别的对比学习来改进实例级别的对比学习，这些方法（如CC [6]、IDFD [7]、TCC [8] 和SASC [9]）显著提高了深度聚类的性能。它们使用对比损失函数通过比较锚点样本和正样本之间的相似性以及锚点样本和负样本之间的差异来优化模型。然而，遵循对比学习方法的基本原则，这些算法将增强样本视为正例，而不考虑它们是否与锚点样本具有语义相似性。将所有其他样本标记为负例会导致对比学习中相似性质量较差。为了解决这个问题，已经提出了几种策略来提高相似性的质量。例如，GCC [10] 和NNM [11] 假设样本的邻居应该具有相同的语义。因此，它们使用特征空间中的邻居作为正例来减少误报问题。然而，样本的邻居通常包含噪声。后来，SCAN [12]、TCL [13]、RUC [14] 和SeCu [15] 将具有高置信度聚类分配概率的样本视为正例。然而，这些高置信度样本通常是基于经验的。总之，由于缺乏标签信息，上述方法生成的相似性信息包含噪声，显著影响了对比聚类的性能。

为了解决上述限制，我们提出了一种具有多原型表示学习的新型对比聚类方法。如图1所示，我们假设如果样本接近相似的原型，它们应该具有相似的表示和聚类分配概率。具体来说，我们首先识别具有高置信度聚类分配概率的样本，并使用它们的特征平均值作为该聚类的原型表示。由于单个原型很难准确表示一个聚类，我们应用高斯采样来扩展每个原型。这样，每个聚类由多个原型表示，我们采用一个记忆库来存储这些原型。接下来，我们通过计算样本与这些原型之间的距离来获得聚类分配。基于原型分配和高置信度聚类分配定义了一个相似性关系矩阵。最后，我们在特征表示和聚类表示上引入了两种损失函数，以确保特征和聚类分配的一致性，这些一致性由相似性关系矩阵指导。总结来说，我们的贡献可以描述为：

•

我们提出了一种对比聚类框架，通过多原型表示学习策略来解决对比聚类方法中相似性关系较差的问题。

•

我们提出了一个原型生成模块来为聚类获得高质量的原型。在这个模块中，一个聚类由多个原型表示。

•

我们提出了一个相似性关系构建模块，以实现样本与原型之间的关系向样本之间的关系转变，并利用学习到的样本之间的关系来指导模型的训练。

•

在多个数据集上的实验结果表明，所提出的框架比其他对比聚类方法具有更好的性能。

章节片段

对比学习

自监督对比学习将表示学习转化为实例区分任务，其中同一样本的增强视图形成正对，不同样本的视图形成负对（例如，SimCLR [16]、MoCo [17]）。然而，将所有不同样本视为负例可能导致类别崩溃 [18]，使同一类别的样本相互分离。为了解决上述问题，基于原型的对比学习方法转换了

方法

subsection初步给定一个包含 N 个样本的数据集

X = {x_{1}, x_{2}, \dots\dots, x_{N}}

来自 K 个聚类。一般的对比聚类方法旨在学习一个编码器

F (\cdot)

、一个实例级别的头节点 ϕ_proj( · ) 和一个聚类级别的头节点 ϕ_cluster( · ) 以实现表示学习和良好的聚类性能。对于样本 x_i，编码器用于提取特征

h_{i} = F (x_{i})

，然后投影头节点 ϕ_proj( · ) 被用来将嵌入映射为标准化嵌入，即

z_{i} = ϕ_{p r j} (h_{i})

。进一步学习

实验

1) 数据集和评估指标。我们在几个知名数据集上评估了我们方法的性能：CIFAR-10/100 [29]、STL-10、ImageNet-10 和 ImageNet-Dogs。我们使用了三个广泛认可的指标来评估我们方法的聚类性能：标准化互信息（NMI）[30]、调整后的Rand指数（ARI）[31] 和准确率（ACC）[32]。这三个指标的值范围从0到1，其中较高的值表示更好的聚类性能。

2) 实现细节。