近年来,微视频平台经历了爆炸性增长。例如,TikTok每月的活跃用户数量接近十亿。1内容创作的便捷性和微视频消费的便利性推动了用户生成内容的激增,这有利于用户、创作者和广告商,但也加剧了信息过载。随着微视频数量的持续增加,平台难以将内容与合适的受众匹配起来,卖家在选择有效的宣传材料时面临挑战,用户也面临着越来越高的搜索成本。这些挑战凸显了微视频流行度预测(MVPP)的重要性,其目标是预测视频吸引用户注意力和参与度的概率。一个有效的MVPP系统可以帮助平台更高效地分配曝光机会,帮助创作者了解受众偏好,并使广告商能够识别有潜力的营销内容。从更广泛的角度来看,准确的流行度预测有助于通过平衡曝光机会和减少信息过载带来的低效率,从而促进更健康的内容生态系统。
然而,准确预测微视频的流行度仍然存在三个主要挑战。首先,微视频中的增强流行度和削弱流行度的信号往往相互交织,难以区分它们的界限。一个视频可能同时包含增强流行度的片段和削弱流行度的片段。现有研究表明,视频中的亮点——即最吸引人的片段——可以显著影响用户的反应和行为意图,这表明观众的注意力和参与度并不是均匀分布在整个视频中的(Dai & Wang, 2024)。例如,一个街头表演视频可能以一个令人印象深刻的舞蹈动作开始,吸引用户的兴趣,但随后包含冗长的闲置时刻,导致注意力下降。相反,一个不受欢迎的产品演示视频可能整体上无人关注,但其中包含一个简短且剪辑精良的亮点,短暂地激发了用户的兴趣。这些共存的信号模糊了流行和不流行因素之间的区别,使得模型难以识别真正驱动流行度的因素。现有的多模态方法通常将每个视频视为一个整体样本,并在全局层面学习跨模式的融合嵌入(Ma et al., 2021)。特别是,对比学习框架旨在通过最大化实例间的距离来分离正面和负面信号,但它们仍然在实例层面操作,隐含地假设每个视频内的流行度信号是均匀的。实际上,流行和不流行在单个实例中共存,这种实例内的纠缠无法通过全局表示来捕捉。因此,这些方法无法模拟局部流行和不流行区域之间的细微交互,这些区域共同决定了整体流行度。因此,我们提出了第一个研究问题(RQ1):如何区分微视频中的增强流行度和削弱流行度的信号,以学习更具区分性的表示用于MVPP?
其次,微视频的流行度不仅取决于各个模态的质量,还取决于它们如何协调以及随时间的发展。微视频通常整合了三种主要模态:视觉、听觉和文本。其流行度取决于这些模态如何协调一致地形成一致的用户体验。即使每个模态本身表现良好,缺乏协调也会削弱整体效果。例如,一个视觉上令人印象深刻的风景搭配诡异的背景音乐可能会让用户感到困惑并抑制参与度,而适度的视觉效果结合情感同步的叙述和节奏可以创造出连贯且吸引人的流动,从而维持用户的注意力。这些例子表明,流行度来源于内容的时间和跨模态协调,而不仅仅是每个模态的孤立强度。最近的研究在视频理解方面推进了时空融合和跨模态对齐——例如,用于视频-语言任务的统一时间变换器和平衡空间和时间线索的动作识别跨注意力架构(Lee et al., 2023, Yan et al., 2024)。虽然这些方法提高了对齐性和表示质量,但它们主要关注特征层面的同步或一致性,而不是模态如何动态协调和交互以形成一致的用户感知。因此,现有方法在捕捉跨时间和跨模态的特征交互方面存在不足,而这些交互对于理解多模态协调如何塑造视频流行度至关重要。因此,我们提出了第二个研究问题(RQ2):如何有效建模跨特征交互以描述MVPP的协调性?
第三,增强流行度和削弱流行度的信号相互交织,加上跨模态和时间的复杂交互,使得难以学习稳定地描述微视频流行度形成方式的模式。由于不同类型的交互共同影响用户的感知,相同的特征组合在一个情境中可能促进流行度,在另一个情境中则可能抑制它。如果不区分在不同情境中始终一致的稳定交互结构,模型往往会过度拟合特定案例的相关性,无法捕捉支配流行度形成的普遍规则。因此,识别多层次和上下文感知的表示至关重要,这些表示能够将增强和削弱流行的交互组织在一个统一的框架中,并根据它们对流行度的贡献分配不同的权重。因此,我们提出了第三个研究问题(RQ3):如何有效捕捉微视频中交织信号下的特征交互?
为了解决这三个问题,我们提出了一种名为“基于流行度的双极多模态交互原型学习”(PGBMI)的新深度学习方法。PGBMI旨在区分微视频中的增强和削弱流行度的信号,捕捉跨模态和时间的细微交互,并学习解释和预测流行度的稳定交互模式。具体来说,PGBMI包含三个关键组件,每个组件都针对其中一个研究问题进行设计。为了解决RQ1,PGBMI引入了双网络对比学习(DNCL)。DNCL构建了两个平行但对称的网络——一个增强流行度的网络和一个削弱流行度的网络——分别编码增强和削弱流行度的信号。通过成对对比损失对比两个网络的嵌入,DNCL在保持网络内部一致性的同时最大化网络间的距离。这种设计使PGBMI能够有效区分每个视频中相互交织的增强和削弱流行度的信号,并学习更具区分性的流行度表示。
为了解决RQ2,PGBMI引入了基于哈达玛积的分层注意力(HHA)机制,用于建模跨模态和时间步的异步交互。HHA分层整合了时间级和模态级的注意力,使模型能够捕捉多模态特征以非同步的方式交互和演变。通过显式表示这些跨级别的交互,HHA描述了用户动态感知微视频流行度背后的协调模式。
为了解决RQ3,PGBMI引入了距离加权的分层原型学习(DHPL)。DHPL将增强和削弱流行的交互模式组织成分层原型,并根据它们与当前视频表示的相关性分配自适应权重。通过联合优化原型到实例的距离和原型间的分离,DHPL使模型能够捕捉在不同情境中持续的稳定交互结构。DHPL通过总结描述微视频流行度形成的重复交互模式,提供了提升的预测性能和更好的可解释性。
在两个数据集上的实证评估表明,PGBMI在MVPP方面始终优于现有的最佳方法。除了预测准确性之外,进一步分析还表明,PGBMI能够揭示多模态交互如何共同影响微视频流行度的可解释和结构化见解。