用于无监督跨模态检索的双重对比性干预因果哈希方法

时间:2026年3月29日
来源:Neural Networks

编辑推荐:

提出双对比干预性因果哈希(TCICH)方法,通过哈希空间二进制对立生成对比样本,并构建双相似性度量,将对比学习深度融入模型设计,解决现有方法仅依赖数据增强和表面相似性度量的问题,实验表明TCICH在跨模态检索中性能优于多数基线方法。

广告
   X   

李波|李志新|姜顺妮|张灿龙|马慧芳
中国广西师范大学教育区块链与智能技术重点实验室,教育部,桂林,541004

摘要

大多数无监督的深度跨模态哈希检索(UDCMH)方法使用相似性损失来衡量多媒体实例,而对比式跨模态哈希检索(CMH)方法引入了对比损失。然而,无论是否基于对比学习,这些方法在本质上都是相似的,其中对比学习模块是即插即用的。同时,它们也存在仅使用哈希作为语义表示的问题,缺乏更深入的分析,并未将其整合到模型构建或特征学习中。为了解决这一困境,本文提出了孪生对比干预因果哈希(TCICH)用于无监督跨模态检索。这是首次尝试将对比学习和哈希结合到模型设计中,利用对比知识进行分组因果推理。哈希空间的二进制对立面可以生成对比样本,对比学习可以提高哈希生成器的性能。通过使用哈希的二进制对立值,我们开发了一个孪生对比干预因果框架,该框架使用对比双重采样进行数据增强,并提出了一种构建本质可解释的UDCMH模型的新策略。该模型在训练过程中进行干预,以创建多种干预知识。在三个基线数据集上的实验表明,所提出的方案的有效性超过了大多数UDCMH方法。

引言

大量的多媒体数据包含丰富的信息,跨模态检索(CMR)可以分析不同模态实例之间的相关性,有助于缓解由模态差异引起的语义差距(Jie等人,2025年;Li和Li,2024年;Sun等人,2024年)。在CMR研究中,必须考虑几个因素(Cui等人,2024年;Li等人,2024年;Wang等人,2025年)。首先,传统的数学方法难以分析不同模态之间的复杂非线性相关性(Kaur等人,2021年;Su等人,2019年;Tu等人,2023年),这导致深度学习技术被整合到大多数CMR方法中。其次,对于所有检索应用场景,时效性和存储内存限制了这些模型的实用性。哈希技术可以加速模型训练,同时保持可接受的性能水平。第三,对大量跨模态数据进行标注是不切实际的,这使得无监督方法比有监督方法更具可行性和通用性。基于这些考虑,本文主要探讨无监督深度跨模态哈希检索(UDCMH)方法。
目前,大多数UDCMH方法的一个关键瓶颈(Xie等人,2024年;Yang等人,2023年)是在没有给定标签的情况下有效分析语义信息。为了解决这个问题,一些跨模态哈希检索(CMH)方法专注于改进模型设计或训练过程,以有效利用跨模态语义相似性(Shi等人,2022年;Zhang等人,2022年)。这些改进通常从数据特征、模态结构、采样方法、损失函数等方面进行分析(Duan等人,2022年;Zhao等人,2021年),但它们可能缺乏对研究方向的总体指导。虽然所有CMH方法都使用了哈希技术,但据我们所知,它们仅将哈希作为语义表示,缺乏更深入的分析,并未将其整合到模型构建或特征学习中。因此,我们的第一个出发点是利用哈希的特性来辅助模型学习,提供宏观和全局指导。
同时,为了有效探索语义标签,一些CMH方法在实例学习中引入了对比学习(Hu等人,2022年;Liang等人,2024年;Mikriukov等人,2022年;Wu等人,2022a;Yang等人,2022年),例如无监督对比跨模态哈希(UCCH)(Hu等人,2022年)。大多数对比深度跨模态哈希检索(DCMH)方法应用对比学习来分析实例之间的相关性,使相似实例之间的距离尽可能小,不同实例之间的距离尽可能大。然而,这里出现了第二个问题(或者更确切地说,第一个问题:为无监督模型提供有效指导的问题尚未得到彻底解决):现有对比DCMH方法的改进是渐进的,缺乏泛化能力。具体来说,这些对比DCMH方法与其他非对比DCMH方法本质上相似,如图1所示。换句话说,对于当前的CMH方法(无论是否基于对比学习),主要关注的是分析样本的相似性和差异性(或指导知识),仅限于数据分布的讨论,其中的创新可能是渐进的,对特定问题(如正样本/负样本之间的边界模糊、跨模态对齐的不稳定性)的改进不足。因此,我们的第二个出发点是将对比学习整合到框架设计和数据增强中,同时考虑模型和实例。
因此,与其他对比DCMH方法不同,我们从新的角度分析对比学习,即利用哈希的二进制对立性来进行数据增强,并构建孪生模块以实现整个模型中的对比学习。具体来说,(1)哈希执行维度压缩,将样本特征转换为[-1, +1]的对称哈希空间。(2)在对比学习中,需要使用距离作为衡量标准,使相似特征之间的距离尽可能小,反之亦然。(3)与传统方法不同,哈希方法主要使用汉明距离(和余弦距离)来衡量差异,而不是欧几里得距离和马尔可夫距离。例如,对于4位哈希码A = [+1, +1, -1, +1],最远的点是B = [-1, -1, +1, -1](按汉明距离计算)。因此,由A和B表示的样本在整个哈希空间中是最不同的,模型学习也是如此。哈希空间的二进制对立面可以生成对比样本,对比对抗训练可以提高哈希生成器的性能,使哈希码在对比样本中尽可能不同。
在本文中,我们设计了孪生对比干预因果哈希(TCICH)用于无监督跨模态检索,并在双向图像-文本匹配场景中验证了我们提出的方法。首先,我们基于哈希码的二进制反义词构建对抗样本,即数据增强。特别是,我们的模型基于哈希矩阵W生成孪生哈希矩阵B,用于后续训练。其次,由于无监督学习缺乏根本性的指导,许多UDCMH方法目前建立了结构联合语义相似性度量S,我们构建了相应的孪生相似性度量N以增加自我监督信息。第三,在反向构建之后,我们尝试构建干预因果关系。TCICH使用干预构建来利用四个子模块进行因果推理。内部子方案中有正面指导,而中间子方案中有反向指导。最后,据我们所知,我们是第一个在CMH模型设计中应用对比学习和干预因果学习的,不仅限于数据增强。因此,我们的创新可以扩展到任何基于哈希的方法。本文的贡献可以总结如下:
  • 为了解决UDCMH方法缺乏有效指导知识的问题,我们提出了一个使用对比双重采样进行数据增强并实现分组对比学习的孪生对比框架,有效利用自我监督信息。与其他对比DCMH方法不同,我们不仅在数据特征标注中应用了对比学习,还全面研究了哈希的二进制对称性,其改进是革命性和全局性的。
  • 我们提出了一种构建本质可解释的UDCMH模型的新策略,该模型在训练过程中进行干预,以创建多种干预知识。然后,TCICH在不同知识之间进行因果推理,同时过滤掉不稳定的虚假响应。
  • 此外,我们总结了自我监督CMH方法的范式,这可以推进跨媒体研究,包括但不限于因果学习。在三个广泛使用的数据集上进行的充分和全面的实验验证了我们提出的TCICH可以超越大多数SOTA UDCMH算法,并保持良好的泛化能力。
  • 总结来说,我们从新的角度将对比学习与哈希相结合,即全局设计,并将其应用于CMR任务,在实验中获得了稳定的结果。此外,我们使用干预构建来利用四个子模块进行因果推理。通过将干预因果学习应用于哈希码学习过程,模型可以保持训练效率并提高在不同场景中的迁移能力,而不受环境特定扰动的限制。我们从七个方面讨论了TCICH,并使用消融实验分析了不同组件,同时无监督框架确保了泛化能力。尽管我们目前的工作集中在CMR任务上,但对比学习和哈希的整合适用于整体方案,有机会扩展到其他基于哈希的方法。

    相关工作

    相关工作

    为了有效分析多媒体数据并完成CMR任务,我们简要回顾了一些代表性的CMH工作,包括浅层(非深度)方法(Ding等人,2014年;Kumar和Udupa,2011年;Song等人,2013年)和深度方法(Li等人,2025年;Su等人,2019年;Zhu等人,2022年)。深度方法可以基于有监督学习或无监督学习。此外,我们还介绍了对比学习在CMH方法中的应用(Cui等人,2024年;Hu等人,2022年)。

    哈希的对比

    哈希将数值转换为二进制范围,例如[-1,+1]或[0,+1]。如图2(a)所示,1位哈希码的值可以转换为一条直线:A(-1)和B(+1)的相关性最低。扩展到2位的情况如图2(b)所示,可以表示更多情况。与B相比,A与D(或C)的相关性更强。当我们继续增加哈希长度时,过多的元素会降低图像的可读性,因此我们省略了其他点

    实验设置

    为了验证TCICH的性能,我们在三个图像-文本数据集上进行了广泛的实验。在本节中,我们简要介绍了数据集、评估指标和实现细节。

    实验结果与分析

    在本节中,我们将展示实验结果以及相应的分析。具体来说,我们尝试回答以下7个研究问题,以指导这些实验的评估目标:
  • 我们的模型整体性能是否优于不同数据集上的SOTA基线?请参见第5.1节。
  • 对比学习和哈希的结合是否有效?请参见第5.2节。
  • 关键超参数的敏感性如何?请参见
  • 结论

    为了为UDCMH方法提供更可靠的知识指导,并有效利用对比学习的功能,我们设计了孪生对比干预因果哈希(TCICH)用于无监督跨模态检索。与其他仅使用对比学习分析实例特征的对比DCMH方法不同,我们是第一个在模型设计中应用对比学习的,不仅限于数据增强。其次,我们提出了一种构建

    CRediT作者贡献声明

    李波:撰写——原始草稿,方法论。李志新:撰写——审阅与编辑,资金获取。姜顺妮:可视化。张灿龙:验证。马慧芳:验证。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(编号62276073)、广西高校中青年教师研究能力提升项目(编号2024KY0817、2024KY1715)以及广西多源信息集成与智能处理协同创新中心的支持。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有