单像素成像(SPI)[1]、[2]、[3]作为一种新颖的计算相关成像技术,近年来受到了广泛关注。与传统成像方法不同,SPI是一种支持欠采样的间接成像技术。具体来说,一系列具有预定义顺序的结构化掩模图案被投影到目标物体上,然后使用单像素探测器(SPD)[4](缺乏空间分辨率)来测量场景的透射或反射光强度。通过将投影图案的序列与相应的检测到的强度值相关联来重建目标图像。与依赖阵列传感器的传统成像系统相比,SPI具有高信噪比、低成本、宽光谱适应性和灵活的光学配置[5]等优势。这些特点使得SPI在显微镜成像[6]、三维成像[7]、X射线成像[8]、太赫兹成像[9]、激光雷达成像[10]和光学信息安全[11]等各种领域得到广泛应用。
在SPI中,高质量的重建图像通常需要大量的掩模,这显著增加了信号采集时间和图像重建时间,限制了SPI的实际应用。因此,平衡SPI的成像质量和效率已成为学者们的关键研究焦点。在早期阶段,压缩感知(CS)[4]、[12]是SPI中图像重建的主要方法之一。传统的压缩感知单像素成像(CSSPI)方法依赖于对自然图像的固有先验知识来进行信号恢复。然而,人工设计的先验模型在表征复杂多变的实际世界图像的多样性方面往往存在局限性。更重要的是,基于迭代优化的CS方法通常计算效率较低。为了克服这些局限性,最近在SPI领域提出了深度学习方法[13]、[14],在提高重建质量和计算效率方面显示出显著的优势。随着深度学习在计算机视觉中的兴起,基于CNN[15]、基于RNN[16]、基于Transformer[17]、[18]以及其他衍生类型的深度学习SPI(DLSPI)[19]、[20]相继被提出。与CSSPI相比,DLSPI可以在更低的采样率下恢复更高质量的图像。更重要的是,在深度学习理论和框架快速创新的背景下,DLSPI在成像质量、泛化和计算成本方面仍有很大的改进空间。
在DLSPI领域,CNN的一个根本局限性在于其归纳偏置带来的强烈约束:局部感受野和固定的卷积核严重限制了网络捕捉长距离空间依赖性的能力,迫使全局信息通过多层深度堆栈间接传播。这不仅降低了效率,还倾向于稀释长距离相关性。相比之下,Transformer通过自注意力机制实现了强大的全局上下文建模;然而,它们的计算和内存需求随输入令牌数量的增加而呈二次方增长,这在处理高分辨率图像时带来了巨大的负担。此外,Transformer的弱归纳偏置导致数据需求量大,使其在数据量较少时容易过拟合。
创新的Mamba[21]架构以其高效捕获全局上下文信息的能力而著称,特别是在长距离建模方面表现优异,从而克服了CNN固有的静态局部性限制。其核心优势在于计算效率,这是通过状态空间模型(SSM)实现的。与计算和内存需求随输入长度迅速增长的Transformer不同,Mamba的需求仅与输入大小成比例增加。后续的视觉Mamba[22]成功将Mamba架构扩展到计算机视觉领域,并改进了其单向扫描机制以更好地适应视觉任务。凭借其强大的全局上下文建模能力,Mamba架构非常适合SPI任务,能够有效地表示具有长距离依赖性的高维目标图像。此外,由于单像素测量来自同一场景,且每次测量都编码了高度压缩的信息,因此测量数据之间存在强相关性,即使是在第一个和最后一个值之间也是如此。
2024年,宋等人提出了一种CNN-Mamba单像素成像(CMSPI)混合网络[23],用于单像素检测,该网络能够捕获局部详细特征和长距离依赖性。他们还提出了分割-连接结构、深度可分离卷积和残差连接等互补设计,以进一步减小网络规模,使训练过程更加平滑,并提高网络建模性能。数值和实际实验结果表明,与基于CNN、RNN和Transformer的SPI方法相比,Mamba网络的应用显著提高了图像重建质量。
上述方法通过线性层将测量的1D数据完全连接到2D图像。V-Mamba模块将2D图像沿行和列扁平化为1D序列,使用选择性扫描独立处理每个序列,然后重新组合它们以形成输出。然而,这种方法忽略了两个重要方面:自然图像中相邻像素之间的固有局部关系和空间连续性,以及以完全不同方式扩展的序列之间的差异。为了克服这些缺点,提出了一种改进的U-Mamba网络,称为UMSPI。我们分别在U-Net的编码和解码层中引入了Mamba模块,使网络在下采样和上采样阶段同时捕获长距离依赖特征和局部空间结构信息。编码阶段的Mamba模块增强了建模测量和掩模之间复杂映射关系的能力,并能在低维表示中保留更多的全局上下文信息。解码阶段的Mamba模块在特征融合和逐层恢复过程中引入了动态状态更新机制,使得重建图像的细节恢复更加准确,边缘结构更加清晰。在Mamba模块中引入了复合S形位移扫描(CSDS)策略,通过基于条带的位移扫描区域和S形扫描路径保留了输入图像的位置特性和连续性。此外,结合了序列混洗注意力(SSA)[24]来计算不同序列对应通道内的注意力权重以实现序列聚合。网络采用U-Net结构实现局部图像特征的重建,并引入改进的Mamba模块实现全局图像特征的重建。仿真和实验结果表明,这种方法在保真度和鲁棒性方面优于先进的DLSPI方法。这项工作为高质量欠采样单像素成像提供了新的思路和方案。