在当今科技飞速发展的时代,图像融合技术就像是一位神奇的 “合成大师”,它能将来自不同成像源的信息巧妙地整合在一起,创造出比单一传感器所提供的更完整、更清晰的图像。在医学成像领域,这一技术的重要性更是不言而喻。例如,红外传感器能捕捉到人体的热信号,就像给身体做了一次 “热成像体检”;而可见光传感器则能清晰呈现出人体组织的精细纹理,两者结合,能为医生提供更全面的诊断依据。然而,目前的图像融合技术却面临着诸多挑战。传统的融合方法,如离散余弦变换(DCT)、稀疏表示(SR)和主成分分析(PCA)等,虽然在特定数据类型上有一定效果,但适应性较差,就像 “一把钥匙只能开一把锁”,无法满足复杂多变的图像融合需求。近年来兴起的深度学习方法,包括卷积神经网络(CNNs)、生成对抗网络(GANs)、自动编码器(AEs)和基于 Transformer 的模型等,虽然在特征提取和处理大规模数据集方面展现出了潜力,但也存在各自的问题。比如,CNNs 的静态卷积层由于感受野较小,难以捕捉全局信息,就像 “只见树木,不见森林”;基于 Transformer 的模型虽然能有效捕捉全局特征,但计算量巨大,对硬件要求极高,这无疑增加了应用成本。
为了攻克这些难题,河南科技大学信息工程学院的研究人员开展了一项极具创新性的研究,提出了 VSS-SpatioNet 这一新型融合网络。该研究成果发表在《Scientific Reports》上,引起了广泛关注。
研究人员在研究中运用了多种关键技术方法。在模型构建方面,采用了一种独特的轻量化不对称编码器 - 解码器结构。编码器通过四级级联的轻量级密集块(Dense Blocks),能够在多个分辨率下提取多尺度信息,就像从不同 “视角” 对图像进行观察,全面捕捉图像的细节和语义信息。融合模块则利用基于残差的多尺度特征融合方法,结合 2D 选择性扫描(SS2D)模块和卷积融合操作,实现了跨模态特征的高效整合。解码器通过多级轻量级密集块结构和上采样操作,能够从融合后的多尺度特征图中重建出高保真的输出图像,就像把零散的拼图碎片完美地拼接在一起。此外,研究人员还设计了一种新颖的损失函数,综合考虑了多尺度结构相似性、感知对齐、增强特征保真度和平滑度约束,确保了融合图像在保留关键信息的同时,具有较高的视觉清晰度和信息保真度。在实验过程中,研究人员使用了多个公开数据集,如 KAIST、TNO Human Factors、Roadscene 和 Harvard Medical 等,对 VSS-SpatioNet 进行了全面的评估。
下面来看看具体的研究结果:
- 在 TNO 图像融合数据集上的表现:研究人员将 VSS-SpatioNet 与 9 种先进的图像融合算法进行对比。在信息保留方面,VSS-SpatioNet 表现出色,其熵(EN)达到 7.0058,互信息(MI)为 14.0116,均高于其他方法,这表明融合后的图像包含更丰富的信息。在平衡细节保留和结构一致性方面,其结构相关差异(SCD)和多尺度结构相似性(MS-SSIM)得分也十分突出,说明该模型能够有效保留图像的纹理和边缘信息,同时保持结构的连贯性。通过消融研究发现,VSS-SpatioNet 中结合空间和视觉状态空间(VSS)组件的 VS 融合配置,在保留细节和维持结构一致性方面达到了最佳平衡。从定性评估来看,与其他算法相比,VSS-SpatioNet 生成的融合图像细节更加清晰,红外和可见信息之间的对比度更加平衡,在低光或高对比度等具有挑战性的环境下,目标区域的清晰度明显提高,边缘细节和纹理的融合也更加自然。
- 在哈佛医学数据集上的验证:研究人员将 VSS-SpatioNet 应用于医学图像融合任务,与三种经典的医学图像融合方法进行比较。结果显示,VSS-SpatioNet 在医学图像融合任务中也具有竞争力。例如,在熵(EN)、标准差(SD)、相关系数(CC)和互梯度(MG)等指标上表现良好,这表明该模型不仅能够有效融合医学图像的信息,还能在一定程度上增强图像的对比度和结构相似性,为医学诊断提供更有价值的图像信息。这一结果验证了 VSS-SpatioNet 的通用性,说明它在不同领域的图像融合任务中都具有潜在的应用价值。
- 在 Roadscene 数据集上的评估:针对 Roadscene 数据集,研究人员使用了六种客观评估指标对 VSS-SpatioNet 进行评估。结果表明,VSS-SpatioNet 在该数据集上达到了领先水平,其熵(EN)为 7.4062,平均梯度(AG)为 5.2994,在保留信息复杂性和增强细粒度纹理清晰度方面表现卓越。同时,它在 Piella’s 度量(QS)上也排名第二,反映出其在结构保留方面的良好性能。与其他方法相比,VSS-SpatioNet 在多个指标上都取得了优异的成绩,进一步证明了其在多模态图像融合任务中的有效性。
- 计算效率分析:计算效率是衡量模型实用性的重要指标。VSS-SpatioNet 在这方面表现出色,其推理时间为 0.82s,与近期的先进方法如 CBFM(8.58s)和 DIVFusion(2.64s)相比,计算效率有了显著提升,同时与实时框架如 RTVD(0.55s)和 UMFusion(0.77s)的性能相当。这种高效性得益于其独特的架构创新,包括 SS2D 模块中的轴向分解,将 2D 空间交互分解为顺序的 1D 操作,降低了计算复杂度;多尺度残差优化,通过嵌套残差连接避免了梯度消失,同时有效对齐跨模态特征;动态融合策略,采用轻量级操作避免了计算密集型机制。这些创新使得 VSS-SpatioNet 在保证融合质量的同时,能够实现实时性能,适用于资源受限的场景。
研究结论和讨论部分指出,VSS-SpatioNet 在集成红外和可见图像的互补信息方面表现出了显著的有效性和适应性,其成功应用于 MRI - PET 融合,验证了该模型在不同成像模态下的通用性。此外,该模型具有内在的可扩展性,在动态视频融合、高光谱成像和 3D 体积数据融合等领域具有潜在的应用前景。例如,在动态视频融合中,通过结合递归连接或 3D 卷积,VSS 模块的时间一致性处理能力可以扩展到时空领域,为视频监控和自主导航系统提供实时的多模态序列对齐;在高光谱成像中,多尺度特征融合机制有助于解决光谱 - 空间权衡问题,提高遥感图像的分析能力;在 3D 体积数据融合方面,通过实施深度感知特征池化层,该框架可以适应 3D 医学图像引导的干预,为手术提供更精准的图像支持。然而,研究也存在一些局限性。一方面,研究主要使用特定的数据集进行训练和评估,可能限制了对模型在更大、更多样化数据集上的泛化能力的理解;另一方面,尽管模型的轻量化设计提高了计算效率,但在处理大规模数据集的实时应用时,仍可能存在计算瓶颈,未来需要进一步优化推理速度和内存使用。此外,该研究仅涉及静态图像融合任务,其在动态视频融合方面的适用性尚未探索。
总的来说,VSS-SpatioNet 的出现为图像融合技术带来了新的突破,它在多模态图像融合任务中的卓越性能和广泛适用性,为医学成像、监控、遥感等多个领域的发展提供了有力支持,也为未来的研究指明了方向,具有重要的理论意义和实际应用价值。