基于图掩码的双对比学习：一种用于多视图聚类的自监督框架

生物通首页 > 今日动态 > 正文

基于图掩码的双对比学习：一种用于多视图聚类的自监督框架

时间：2026年3月28日

来源：Neural Networks

编辑推荐：

多视图聚类中提出DCMGAL框架，通过masked图聚合抑制噪声冗余，全局融合机制恢复跨视图语义对齐，双对比学习模块增强表示区分度，有效解决信息同质化问题。

吴建生|李文婷|吴俊云|闵卫东

南昌大学数学与计算机科学学院，南昌，330031，中国

摘要

基于图的深度多视图聚类近年来已成为一个重要的研究范式，这得益于其在建模非线性特征关系方面的有效性。然而，现有方法存在两个关键限制：（1）它们对噪声和冗余非常敏感，这通常会扭曲图构建过程；（2）过度强调跨视图特征对齐，无意中忽略了视图间的固有异质性，从而可能导致视图间的表示同质化。虽然掩蔽机制可以缓解这些问题，但为了在单视图场景中生成具有区分性的表示，需要较高的掩蔽比例，这迫使基于图的模型产生多样化的视图特定表示，但代价是显著的一致性损失，即语义上的不对齐。为了解决这些挑战，本文提出了双重对比掩蔽图自动编码器学习（DCMGAL）用于多视图聚类。DCMGAL结合了一个掩蔽聚合模块，通过随机边掩蔽来放大视图间的差异并抑制噪声和冗余。它还设计了一个全局特征融合机制，将双重注意力网络与自表达网络结合起来，以捕获视图间的互补信息。此外，还设计了一个双重对比学习模块，通过跨视图聚类一致性学习来强化聚类级一致性，并通过局部拓扑保持学习来保留局部拓扑结构，从而提高表示的可分性。最后，引入了一个邻接图重构组件，通过图自动编码器架构保留必要的邻域信息，同时重构节点特征。在基准数据集上的广泛实验表明，DCMGAL的性能显著优于现有的聚类方法。

引言

多视图聚类（MVC）近年来吸引了大量研究关注，因为它能够在不依赖标记注释的情况下分析多视图数据。与仅提供有限数据对象视角的单视图数据不同，多视图数据通过整合异构视图来促进全面特征描述，每个视图捕获不同的语义，同时保留互补信息。总体而言，这些视图揭示了单视图方法无法访问的深层数据结构（Chao等人，2021年；Liang等人，2020年；Zhang等人，2024年）。因此，MVC研究的最新进展旨在整合跨视图的互补信息。这种整合旨在通过联合探索跨视图一致性和视图特定多样性来更有效地利用底层数据结构（Cai等人，2024年；Zhang和Che，2024年），特别是在视图不平衡或不完整的情况下。

传统的MVC方法（Guo和Wu，2025年；Liang等人，2020年）主要依赖于浅层数据表示，如手工制作的特征或从矩阵分解技术中得到的线性嵌入。然而，这些浅层表示通常质量较低，包含冗余和噪声，限制了它们对多视图数据中固有的复杂非线性关系的建模能力（Xu等人，2021年；Xu等人，2023年；Yan等人，2025年）。

为了解决这些限制，最近的研究开发了深度MVC框架（Cui等人，2023年；Xu等人，2021年），这些框架利用深度神经网络进行非线性映射。在这些方法中，深度自动编码器架构已成为MVC中的主流范式（Xu等人，2021年；Yan等人，2023年），使用编码器-解码器架构将输入数据编码为信息丰富的低维表示，同时通过数据重构保留关键信息。然而，这些方法的一个关键限制在于它们过于强调特征级重构，往往忽略了编码关键成对样本关系的拓扑结构。

基于图的深度MVC方法（Peng等人，2019年；Wang等人，2020年；Wen等人，2021年）通过图卷积网络（GCNs）整合特征和结构信息来解决这一差距。这些方法通过邻接引导的传播聚合样本特征和邻域信息，生成符合邻域平滑性假设的邻域一致表示。尽管有这些进步，但仍存在三个关键挑战：（1）对冗余和噪声的敏感性：数据中的冗余和噪声会导致图结构出现冗余和噪声连接，GCNs容易过拟合，从而影响模型性能和可靠性（Peng等人，2024年）。（2）表示的多样性和可区分性不足：现有方法追求跨视图语义，但忽略了视图间的不一致性，可能导致表示同质化（Cai等人，2024年；Zhang和Che，2024年）。在这种情况下，视图特定表示变得过于相似，失去了捕获视图特定语义所需的关键多样性。（3）特征信息和结构信息之间的不平衡：尽管GCNs可以同时建模特征和结构信息，但现有模型过于强调特征重构而忽视了结构重构。因此，生成的表示可能有效重建数据，但无法保留对多视图数据流形结构进行特征描述所需的邻域信息。

表1对比分析了六种最先进的多视图聚类方法（Shen和Kang，2025年提出的DCMGAL）的噪声敏感性（NS）、视图冗余（VR）和异质性利用（HU）。基准方法包括SiMVC（Trosten等人，2021年）、MFLVC（Xu等人，2022年）、DealMVC（Yang等人，2023年）、MRDD（Ke等人，2024年）、DDMVC（Xu等人，2025年）和DCMGAL（Li等人，2025年）。噪声敏感性（NS）量化了模型对结构扰动的鲁棒性。它定义为在每个视图的邻接矩阵中注入20%随机噪声后聚类准确率（ACC）的相对百分比下降。较低的NS值表示对结构噪声的抵抗力更强。视图冗余（VR）衡量视图间的信息重叠程度，定义为不同视图表示之间的平均余弦相似度。较高的VR表示视图间共享的冗余信息更多。异质性利用（HU）评估了方法利用视图特定特征的能力。它定义为在消除视图特定特征（即仅保留视图间共享的特征）后归一化互信息（NMI）的相对下降。通过计算原始视图特征与其在共享子空间上的投影之间的残差来隔离视图特定特征。较低的HU反映了利用异质信息的较弱能力。表1中的定量结果明确验证了当前MVC方法在噪声敏感性、冗余和异质信息利用方面的局限性。同时，结果展示了所提出的DCMGAL框架在鲁棒性、有效利用互补信息以及利用视图特定特征方面的优越性。

为了解决这些挑战，本文提出了一种新的深度MVC框架，称为双重对比掩蔽图自动编码器学习（DCMGAL）。DCMGAL结合了一个基于图的掩蔽聚合模块，该模块在邻接图中随机掩蔽边。这个模块引入了视图间的不一致性，减少了噪声传播和冗余连接，同时增强了视图特定表示学习的鲁棒性。然而，这种人为引入的不一致性带来了一个权衡：高掩蔽比例（提高表示学习能力所需）可能会切断编码跨视图共识结构的关键边，破坏图卷积传播背后的邻域平滑性假设。

这种破坏削弱了模型捕获视图间统计依赖性的能力，并使潜在流形碎片化，导致语义对齐的跨视图样本在拓扑上分离。因此，在高掩蔽比例下学习的表示表现出更高的异质性和更低的一致性，从而导致较差的可区分性和不稳定的聚类性能。因此，设计了一个全局融合机制来恢复跨视图语义对齐并强化潜在的结构相关性。它利用双重注意力网络动态建模视图间相关性，并强调信息丰富的连接，然后通过自表达网络揭示内在数据结构，有效捕获互补信息。第4.5节中的消融研究和t-SNE可视化验证了在高掩蔽比例下（例如，ω≥50%）省略任一子模块会导致表示过度分散和语义不对齐，显著降低聚类可分性。此外，DCMGAL设计了一个双重对比学习模块来增强融合表示的可区分性，包括两个关键组成部分：聚类级一致性学习和拓扑级结构保持学习。通过强制跨视图的一致性同时保留局部拓扑结构，该模块确保相似样本在特征空间中聚集在一起，而不同样本被分开。最后，DCMGAL共同重构输入特征和视图特定邻域结构，以增强潜在表示的邻域平滑性。图1展示了DCMGAL的框架。主要贡献总结如下：•

开发了一个基于图的掩蔽聚合模块，用于抑制邻接图中的噪声传播和冗余连接，放大视图间的异质性，并提高基于图的表示学习的鲁棒性。

•

设计了一个全局特征融合机制，通过注意力驱动的相关性探索和自表达潜在结构学习，在高掩蔽比例下恢复跨视图语义对齐。

•

设计了一个双重对比学习模块，以强化聚类级跨视图一致性和拓扑级结构保持，共同提高表示的可区分性。

DCMGAL框架

如图1所示，所提出的DCMGAL框架整合了三个关键组成部分：（1）用于鲁棒视图特定表示学习的基于图的掩蔽聚合模块，（2）用于恢复跨视图语义一致性的全局融合机制，以及（3）用于增强表示可区分性的双重对比学习模块。最初，开发了带有随机边掩蔽的视图特定GCN编码器，通过抑制

实验设置

数据集和基线

为了评估所提出的DCMGAL模型，实验在七个不同领域的公开多视图数据集上进行，包括Caltech（Fei-Fei等人，2004年）、100LEAVES（Yang和Lin，2023年）、BDGP（Cai等人，2012年）、Cora（Fang等人，2024年）、MNIST（Peng等人，2019年）、CCV（Jiang等人，2011年）和Fashion（Xu等人，2023年）。表2总结了这些基准数据集。

比较了十一种最先进的基线方法：DEMVC（Xu等人，2025年）

结论

本文提出了双重对比掩蔽图自动编码器学习（DCMGAL），这是一种新的多视图聚类框架，解决了两个关键挑战：视图间冗余和语义不对齐。具体来说，DCMGAL在邻接图上实施随机边掩蔽，引入视图间不一致性，从而增强学习表示的结构完整性，同时减少冗余和噪声传播。该框架还提出了全局融合

CRediT作者贡献声明

吴建生：写作——审稿与编辑，撰写——原始草稿，可视化，验证，软件，方法论，资金获取，形式分析，概念化。李文婷：写作——原始草稿，可视化，验证，软件，方法论，形式分析。吴俊云：写作——审稿与编辑，可视化，验证，软件，方法论，概念化。闵卫东：写作——审稿与编辑，监督，形式分析，概念化。