多视图聚类(MVC)近年来吸引了大量研究关注,因为它能够在不依赖标记注释的情况下分析多视图数据。与仅提供有限数据对象视角的单视图数据不同,多视图数据通过整合异构视图来促进全面特征描述,每个视图捕获不同的语义,同时保留互补信息。总体而言,这些视图揭示了单视图方法无法访问的深层数据结构(Chao等人,2021年;Liang等人,2020年;Zhang等人,2024年)。因此,MVC研究的最新进展旨在整合跨视图的互补信息。这种整合旨在通过联合探索跨视图一致性和视图特定多样性来更有效地利用底层数据结构(Cai等人,2024年;Zhang和Che,2024年),特别是在视图不平衡或不完整的情况下。
传统的MVC方法(Guo和Wu,2025年;Liang等人,2020年)主要依赖于浅层数据表示,如手工制作的特征或从矩阵分解技术中得到的线性嵌入。然而,这些浅层表示通常质量较低,包含冗余和噪声,限制了它们对多视图数据中固有的复杂非线性关系的建模能力(Xu等人,2021年;Xu等人,2023年;Yan等人,2025年)。
为了解决这些限制,最近的研究开发了深度MVC框架(Cui等人,2023年;Xu等人,2021年),这些框架利用深度神经网络进行非线性映射。在这些方法中,深度自动编码器架构已成为MVC中的主流范式(Xu等人,2021年;Yan等人,2023年),使用编码器-解码器架构将输入数据编码为信息丰富的低维表示,同时通过数据重构保留关键信息。然而,这些方法的一个关键限制在于它们过于强调特征级重构,往往忽略了编码关键成对样本关系的拓扑结构。
基于图的深度MVC方法(Peng等人,2019年;Wang等人,2020年;Wen等人,2021年)通过图卷积网络(GCNs)整合特征和结构信息来解决这一差距。这些方法通过邻接引导的传播聚合样本特征和邻域信息,生成符合邻域平滑性假设的邻域一致表示。尽管有这些进步,但仍存在三个关键挑战:(1)对冗余和噪声的敏感性:数据中的冗余和噪声会导致图结构出现冗余和噪声连接,GCNs容易过拟合,从而影响模型性能和可靠性(Peng等人,2024年)。(2)表示的多样性和可区分性不足:现有方法追求跨视图语义,但忽略了视图间的不一致性,可能导致表示同质化(Cai等人,2024年;Zhang和Che,2024年)。在这种情况下,视图特定表示变得过于相似,失去了捕获视图特定语义所需的关键多样性。(3)特征信息和结构信息之间的不平衡:尽管GCNs可以同时建模特征和结构信息,但现有模型过于强调特征重构而忽视了结构重构。因此,生成的表示可能有效重建数据,但无法保留对多视图数据流形结构进行特征描述所需的邻域信息。
表1对比分析了六种最先进的多视图聚类方法(Shen和Kang,2025年提出的DCMGAL)的噪声敏感性(NS)、视图冗余(VR)和异质性利用(HU)。基准方法包括SiMVC(Trosten等人,2021年)、MFLVC(Xu等人,2022年)、DealMVC(Yang等人,2023年)、MRDD(Ke等人,2024年)、DDMVC(Xu等人,2025年)和DCMGAL(Li等人,2025年)。噪声敏感性(NS)量化了模型对结构扰动的鲁棒性。它定义为在每个视图的邻接矩阵中注入20%随机噪声后聚类准确率(ACC)的相对百分比下降。较低的NS值表示对结构噪声的抵抗力更强。视图冗余(VR)衡量视图间的信息重叠程度,定义为不同视图表示之间的平均余弦相似度。较高的VR表示视图间共享的冗余信息更多。异质性利用(HU)评估了方法利用视图特定特征的能力。它定义为在消除视图特定特征(即仅保留视图间共享的特征)后归一化互信息(NMI)的相对下降。通过计算原始视图特征与其在共享子空间上的投影之间的残差来隔离视图特定特征。较低的HU反映了利用异质信息的较弱能力。表1中的定量结果明确验证了当前MVC方法在噪声敏感性、冗余和异质信息利用方面的局限性。同时,结果展示了所提出的DCMGAL框架在鲁棒性、有效利用互补信息以及利用视图特定特征方面的优越性。
为了解决这些挑战,本文提出了一种新的深度MVC框架,称为双重对比掩蔽图自动编码器学习(DCMGAL)。DCMGAL结合了一个基于图的掩蔽聚合模块,该模块在邻接图中随机掩蔽边。这个模块引入了视图间的不一致性,减少了噪声传播和冗余连接,同时增强了视图特定表示学习的鲁棒性。然而,这种人为引入的不一致性带来了一个权衡:高掩蔽比例(提高表示学习能力所需)可能会切断编码跨视图共识结构的关键边,破坏图卷积传播背后的邻域平滑性假设。
这种破坏削弱了模型捕获视图间统计依赖性的能力,并使潜在流形碎片化,导致语义对齐的跨视图样本在拓扑上分离。因此,在高掩蔽比例下学习的表示表现出更高的异质性和更低的一致性,从而导致较差的可区分性和不稳定的聚类性能。因此,设计了一个
全局融合机制来恢复跨视图语义对齐并强化潜在的结构相关性。它利用双重注意力网络动态建模视图间相关性,并强调信息丰富的连接,然后通过自表达网络揭示内在数据结构,有效捕获互补信息。第4.5节中的消融研究和t-SNE可视化验证了在高掩蔽比例下(例如,ω≥50%)省略任一子模块会导致表示过度分散和语义不对齐,显著降低聚类可分性。此外,DCMGAL设计了一个
双重对比学习模块来增强融合表示的可区分性,包括两个关键组成部分:聚类级一致性学习和拓扑级结构保持学习。通过强制跨视图的一致性同时保留局部拓扑结构,该模块确保相似样本在特征空间中聚集在一起,而不同样本被分开。最后,DCMGAL共同重构输入特征和视图特定邻域结构,以增强潜在表示的邻域平滑性。图1展示了DCMGAL的框架。主要贡献总结如下:
•开发了一个基于图的掩蔽聚合模块,用于抑制邻接图中的噪声传播和冗余连接,放大视图间的异质性,并提高基于图的表示学习的鲁棒性。
•设计了一个全局特征融合机制,通过注意力驱动的相关性探索和自表达潜在结构学习,在高掩蔽比例下恢复跨视图语义对齐。
•设计了一个双重对比学习模块,以强化聚类级跨视图一致性和拓扑级结构保持,共同提高表示的可区分性。