一种基于可能性分布证据合成的显著框架驱动的视频模仿融合方法

时间:2026年1月1日
来源:Optics & Laser Technology

编辑推荐:

视频融合中显著帧驱动自适应模仿方法通过检测特征剧烈变化的显著帧,动态调整融合策略,结合可能性分布证据合成与改进PROMETHEE-II排序机制优化特征不确定性量化,提升复杂动态场景下的融合质量与鲁棒性。

广告
   X   

孟子艳辰|杨峰宝|杜薇薇|郭晓明|王晓霞|季琳娜
中国北方大学信息与通信工程学院,太原 030051,中国

摘要

现有的融合方法在红外和可见光视频的特征发生显著变化的关键时刻,缺乏感知和自适应调整融合结构的能力,导致在关键帧出现模糊、细节丢失和性能下降。为了解决这个问题,本文提出了一种基于显著帧驱动的视频模仿融合方法(SFDM-Fusion),该方法基于可能性分布证据合成。该方法通过准确的显著帧检测来实现结构上的自适应调整,从而提高复杂动态场景中的视频融合质量。首先,计算特征幅度和频率的加权属性,以提取跨模态的帧内差异特征和单模态的时间变化特征。其次,基于特征不确定性变化进行聚类分析,以表征可能性分布。设计了一个权重分配矩阵和非线性融合规则,构建基于高斯的可能性信念分配函数,以有效量化特征不确定性。此外,提出了一种结合改进的PROMETHEE II和证据论的有序可靠性决策方法。通过建立二维评估标准和非线性可能性偏好函数,将净流排名结果转换为衡量证据可靠性的动态权重,从而优化证据合成过程并提高显著帧检测的准确性。最后,检测到的显著帧驱动模仿融合变体的自适应选择和融合。广泛的实验结果表明,所提出的SFDM-Fusion不仅在关键帧保持了优越的融合性能,还显著提高了整体视频融合质量,在复杂动态场景中表现出显著的适应性和鲁棒性。

引言

红外和可见光视频融合是多模态智能感知领域的核心技术。它通过整合红外成像的热目标信息和可见光成像的丰富纹理细节,为高动态应用场景(包括军事侦察、态势感知和空间安全)提供全面可靠的视觉感知支持[1]。然而,在涉及非结构化变化的场景中,如传感器视角抖动、突发天气变化以及目标与环境之间的相互遮挡,视频序列中经常包含特征分布发生剧烈变化的显著帧。这些帧的融合质量对后续视觉任务的准确性和稳定性具有决定性影响。
现有的融合方法通常对所有帧应用统一的策略[3],缺乏检测和响应显著帧的能力。这种僵化往往导致在关键时刻性能下降和细节丢失,因为这些方法无法适应这些帧的特征变化。尽管一些研究引入了自适应权重调整机制[4]、[5]以提高算法的适应性,但这些方法主要局限于参数级别的调整,其融合架构和规则在设计阶段就已经固定。因此,当面对显著帧呈现的复杂特征变化时,仅仅优化参数无法实现融合策略的根本重构,从而限制了其在复杂动态场景中的有效性。这个问题已成为阻碍传统融合方法进一步性能提升的关键瓶颈。
图1显示了一个室内视频序列中的三个帧,其中照明从明亮变为昏暗,并将两种经典的融合方法(Cross Bilateral Filter (CBF) [6] 和 Gradient Transfer Fusion (GTF) [7])与一个代表性的深度融合网络 RFN-Nest [59] 进行了比较。在明亮照明下,CBF 能够合理地保留人体轮廓,但在背景区域(如墙壁)引入了明显的噪声;GTF 能够有效地突出红外目标,但未能充分保留可见光的纹理细节;RFN-Nest 产生了相对自然的整体亮度和对比度,但目标人物的轮廓和边缘特征变得模糊。当照明从明亮变为昏暗,然后几乎完全黑暗时,CBF 结果中的噪声显著减少,人体轮廓在低光条件下变得更加清晰;GTF 的融合结果变得更加平滑,目标人物变得模糊;而 RFN-Nest 结果中的人物轮廓比明亮场景有所改善。这个例子表明,当显著帧发生剧烈场景变化时,每种方法的优点和缺点各不相同,使得它们难以同时平衡细节保留、噪声抑制和目标增强。因此,仅依赖具有固定结构的单一融合模型很难在复杂动态场景中保持稳定的融合性能。因此,实现显著帧的准确检测,并在此基础上构建差异化的融合机制,已成为提高视频融合质量和模型适应性的关键方法。
在上述问题在数据稀缺条件下变得更加严重[8]。在实际应用中,由于收集条件、场景复杂性和注释成本的限制,往往难以获得足够和具有代表性的多模态图像数据。尽管当前主流的基于深度学习的融合方法在大型训练数据的支持下可以实现优越的性能[9],但这些模型通常对训练数据的规模和质量高度依赖,且其网络结构在训练后保持不变。一旦测试场景与训练数据之间存在分布差异,或者可用样本数量不足,这些模型的融合性能会显著下降。因此,为了满足数据资源有限和场景复杂的实际需求,构建一个不依赖于大型训练数据并且能够进行动态、结构级融合策略调整的融合框架,对于提高模型的适应性和部署灵活性至关重要。
为了解决上述挑战,本文提出了一种基于可能性分布证据合成的显著帧驱动的视频模仿融合方法(SFDM-Fusion)。该方法受到模仿章鱼机制的启发,章鱼能够感知环境威胁并智能调整其形态以模仿各种生物。该方法将视频中特征发生显著变化的关键时刻视为“环境威胁”,并通过模拟这种智能决策过程,利用可能性分布证据合成来实现显著帧的智能检测。随后,根据显著帧内特征变化的排名,自适应选择最佳的模仿融合变体组合,从而在结构层面实现融合模型的动态调整。这显著提高了复杂动态场景中视频融合的质量和稳定性。图2说明了模仿章鱼的决策机制与显著帧检测驱动融合之间的类比关系。
主要贡献如下:
  • (1)
    提出了一种新的显著帧检测机制,将其引入视频融合领域,建立了基于显著帧动态调整模仿融合策略的协作融合框架。该框架根据显著帧内的特征变化类型触发差异化的融合处理,有效提高了复杂动态场景中的融合质量。
  • (2)
    基于分段可能性分布函数及其非线性加权融合规则构建了一个基本的信念分配(质量)函数。这实现了对多源时空特征不确定性变化的全面表征,有效克服了数据稀缺条件下传统概率分布建模的局限性。
  • (3)
    为了解决复杂少样本环境中证据冲突和不可靠决策的问题,将改进的PROMETHEE-II多标准排名机制转换为证据体的动态可靠性权重。这为证据论提供了客观的权重分配来源,确保了显著帧检测结果的准确性。
  • (4)
    实验结果表明,所提出的方法能够在红外和可见光双模态视频中有效检测显著帧,并在多个公开和自构建的数据集上表现出出色的融合性能。融合质量和场景适应性均优于现有的主流方法,显示出强大的泛化能力和鲁棒性。
  • 本文的其余部分结构如下:第2节回顾了现有的图像融合方法、模仿融合、显著帧检测技术以及相关理论(如可能性理论和D-S证据合成)。第3节详细阐述了SFDM-Fusion算法的实现过程。第4节展示了比较实验结果。第5节总结了本文并提出了未来的研究方向。

    部分片段

    传统融合方法

    传统融合方法主要依赖于预定义的融合策略进行特征提取和集成。它们具有可解释性强、对大型数据集依赖性低等优点,使其在实时系统、资源受限的场景以及需要高操作可靠性的应用中非常有价值。这些方法可以大致分为基于多尺度变换的方法[10]、基于显著性的方法[11]和基于稀疏表示的方法

    方法

    所提出的SFDM-Fusion方法的整体流程如图3所示,包括四个核心组成部分:差异特征的时空联合表示、显著特征变化的信念度分配、有序可靠性决策和模仿变体的最佳选择。首先,利用红外和可见光模态的互补特性,提取跨模态的帧内差异特征和单模态的帧间时间变化特征

    源视频数据集

    为了全面评估SFDM-Fusion在复杂动态场景中的性能,实验在一个自构建的UGVLQ数据集以及两个广泛使用的公开红外和可见光视频数据集上进行。
    为了解决现实世界应用中的常见复杂环境因素,构建了UGVLQ数据集(UGV Datasets of Low-Quality),以验证该算法在具有挑战性条件下的适应性和泛化能力(图8)。该数据集涵盖了各种

    结论

    受到模仿章鱼的选择性模仿行为和决策机制的启发,本研究提出了一种由显著帧检测驱动的新型视频模仿融合方法(SFDM-Fusion)。本研究的主要贡献总结如下:
  • (1)
    将显著帧检测机制引入视频融合领域,建立了显著帧驱动决策与模仿融合策略动态调整之间的协作框架。该机制
  • 资助

    本研究得到了国家自然科学基金(项目编号61972363和61672472)和山西省研究生教育创新项目(项目编号2025XS435)的支持。

    CRediT作者贡献声明

    孟子艳辰:撰写——原始草稿、验证、软件、方法论、调查、形式分析、概念化。杨峰宝:撰写——审阅与编辑、监督、资源、项目管理、资金获取。杜薇薇:撰写——审阅与编辑、资金获取、形式分析。郭晓明:软件、调查、数据管理。王晓霞:撰写——审阅与编辑、可视化、验证、监督。季琳娜:调查、数据管理。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有