深度度量学习(DML)旨在学习一种能够有效捕捉高维空间中数据点之间语义相似性的距离度量。它在各种视觉任务中已成为基础技术,包括图像检索(Cao等人,2017年);人脸识别(Liu等人,2017年);人物重新识别(Xiao等人,2017年);少量样本学习(Qiao等人,2019年)。DML方法通常将输入数据嵌入到一个空间中,其中语义相似的实例放置得较近,而不同的实例则放置得较远。大多数方法通过使用对比损失(Hadsell等人,2006年)、三元组损失(Schroff等人,2015年)或基于分类的目标(如交叉熵损失Boudiaf等人,2020年)来优化成对关系。最近,研究人员提出了增强嵌入质量的替代策略,包括分解表示(Wang等人,2023年)、带有上下文记忆的自适应配对加权(Yan等人,2024年)以及改进的池化技术以实现更有效的特征聚合(Gürbüz等人,2023年)。
在DML中,样本之间的语义亲和力传统上是通过它们的人类标记类别的等价性来引导的。然而,这些标签仅提供了关于样本之间可能关系的有限视角,可能会忽略类别之间语义亲和力的程度(Kim等人,2023年)。为了解决这一限制,基于聚类的方法在探索真实世界数据中的层次关系方面特别有效。其中,双曲嵌入因其能够自然表示树状层次结构而脱颖而出。与欧几里得空间不同,在双曲空间中距离呈指数级增长,这使得它非常适合捕捉每个层次覆盖的数据点子集呈指数级扩大的关系。
几种方法已经利用双曲空间进行度量学习。例如,UnHypML(Yan等人,2021年)使用聚类算法创建层次伪标签,使样本对之间的距离与预定义的相似性比率对齐。另一种值得注意的方法是HIER(Kim等人,2023年),它引入了层次代理作为数据组的代表点(或祖先),优化它们在双曲空间中的位置以捕捉连续的层次表示。尽管有这些进展,当前的基于聚类的方法仍然难以充分利用双曲空间的优势。
一个主要挑战是缺乏真实的层次标签,这使得同时优化聚类中心和距离度量变得复杂。随着在双曲空间中向外移动,体积的迅速增加会进一步放大这个问题,这可能会扭曲距离并使学习过程复杂化。此外,在训练过程中维护层次结构通常需要频繁更新,这对于大型数据集来说计算成本很高。双曲空间中黎曼运算的固有复杂性进一步增加了计算负担,限制了可扩展性。
为了解决这些限制,我们提出了一种新的层次排名框架,该框架在双曲空间中运行,而不依赖于显式的聚类结构。我们的方法基于基于代理的度量学习,其中每个类的代理代表点使用模型先验和标记数据在嵌入空间中定位。这些代理的排列自然揭示了一个隐含的层次结构,捕捉了类别之间的关系。我们没有将代理组织成显式的层次结构,而是利用双曲空间的特性,其中非相邻点之间的距离失真被最小化(Sarkar,2011年)。通过关注代理之间的双曲距离,我们得出了一个反映层次关系的排名结构,而无需显式聚类(如图1所示)。
这个层次排名框架包括两个关键组成部分:层次排名生成(HRG)和层次排名损失(HRL)。HRG生成排名标签,捕捉细粒度类别之间的语义相似程度。与通常产生模糊聚类中心的传统聚类算法不同,HRG提供了对类别关系的更细致理解,并随着模型的学习不断细化这些关系。
一旦建立了这个排名结构,度量学习任务就转变为一个学习排序问题,其中样本被视为查询,代理被视为候选项。特别关注保持类别之间的适当间隔,确保样本向其各自的代理靠近,同时不破坏整体的层次关系。为了解决潜在的层次冲突,我们引入了HRL并应用了权重衰减策略来平衡层次结构的多个层次上的优化,使模型能够学习到更强、更可靠的表示。
总结来说,我们的贡献如下:
•HRG在双曲空间中生成伪排列,无需显式聚类即可紧密逼近真实的语义排名。
•HRL利用排名标签并采用权重衰减策略来平衡不同层次的贡献,从而提高模型性能。
•我们基于排名的方法通过利用双曲空间的特性,降低了聚类复杂性并显著提高了性能。