社交媒体上多模态内容的快速增长促进了恶意模因的传播,这些模因通常通过视觉和文本线索之间的细微互动隐含地表达有害意图。由于不同模态之间的关联较弱、不对称或具有误导性,检测此类内容仍然具有挑战性,这经常限制了传统静态融合策略的有效性。在这项工作中,我们提出了DAMM(
动态模态感知加权嵌入融合),这是一种新型的多模态框架,它明确地建模了模态内部和模态之间的依赖关系,以实现强大的恶意模因检测能力。DAMM引入了两个互补模块:DeepVisionMixer(DVM),它动态地整合了来自卷积神经网络(CNN)和对比语言-图像预训练(CLIP)编码器的异构视觉表示;以及CrossEmbeddingMixer(CEM),它通过自适应权重和顺序细化在视觉和文本嵌入之间执行上下文感知的跨模态融合。与标准的早期或后期融合方法不同,DAMM根据语义上下文学习模态相关性,能够有效处理对齐不良或单独来看无害的模态。我们在四个成熟的基准数据集MAMI、MultiOFF、Memotion-3和Misogynistic MEME上评估了DAMM,这些数据集涵盖了二分类和多分类的仇恨相关任务。该模型在MAMI上的宏观F1分数为0.83,在MultiOFF上为0.66,在Memotion-3上为0.36,在Misogynistic MEME上为0.92,始终优于强大的多模态基线。消融研究进一步证明了动态模态感知融合在提升性能方面起着重要作用,而模态重要性分析则为跨模态决策提供了可解释的见解。本工作的源代码可访问以下链接:
https://github.com/Utathyaworks/DAMM。