一个基于高性能深度学习的单像素图像重建框架，该框架结合了U-Net结构以及改进后的Mamba模块

时间：2026年1月28日

来源：Optics & Laser Technology

编辑推荐：

单像素成像欠采样条件下提出混合网络UMSPI，集成U-Net与Mamba模块，通过编码器和解码器嵌入Mamba实现全局特征建模，结合CSDS扫描策略和SSA注意力机制，提升图像重建质量与计算效率，实验验证其在2D/3D场景中优于传统CS-TV和现有DLSPI方法。

冯少伟|张立山|杨阳|徐勤浩|胡源超

浙江科学技术大学量子态控制与光场操控重点实验室，中国浙江省杭州市310018

摘要

为了解决欠采样条件下单像素成像（SPI）重建质量不足和成像效率低的问题，本文提出了一种混合深度学习网络，该网络将U-Net结构与Mamba模块相结合，称为UMSPI（U-Mamba单像素成像）。所提出的方法利用了U-Net的局部特征恢复能力和Mamba架构的长距离依赖性建模能力，通过在编码器和解码器阶段嵌入Mamba模块来实现。这种方法能够联合建模全局和局部特征。为了保持空间连续性和增强序列相关性，UMSPI在Mamba模块中引入了复合S形位移扫描（CSDS）策略和序列混洗注意力（SSA）机制。这使得模型能够在重建过程中自适应地整合来自不同扫描序列的全局信息。通过数值模拟和单像素成像实验来评估所提出的图像重建框架的性能。仿真结果表明，在5%、10%和20%的采样率下，UMSPI方法比传统的CS-TV算法以及现有的基于深度学习的SPI方法（包括RNN、U-Net及其变体、Transformer和CMSPI）获得了更高的峰值信噪比（PSNR）和结构相似性指数（SSIM）。此外，UMSPI保持了相对较低的计算复杂度和重建时间。在2D和3D目标上的实验结果进一步证实了其生成清晰且结构一致重建的能力，显示出优越的鲁棒性和泛化能力。

引言

单像素成像（SPI）[1]、[2]、[3]作为一种新颖的计算相关成像技术，近年来受到了广泛关注。与传统成像方法不同，SPI是一种支持欠采样的间接成像技术。具体来说，一系列具有预定义顺序的结构化掩模图案被投影到目标物体上，然后使用单像素探测器（SPD）[4]（缺乏空间分辨率）来测量场景的透射或反射光强度。通过将投影图案的序列与相应的检测到的强度值相关联来重建目标图像。与依赖阵列传感器的传统成像系统相比，SPI具有高信噪比、低成本、宽光谱适应性和灵活的光学配置[5]等优势。这些特点使得SPI在显微镜成像[6]、三维成像[7]、X射线成像[8]、太赫兹成像[9]、激光雷达成像[10]和光学信息安全[11]等各种领域得到广泛应用。

在SPI中，高质量的重建图像通常需要大量的掩模，这显著增加了信号采集时间和图像重建时间，限制了SPI的实际应用。因此，平衡SPI的成像质量和效率已成为学者们的关键研究焦点。在早期阶段，压缩感知（CS）[4]、[12]是SPI中图像重建的主要方法之一。传统的压缩感知单像素成像（CSSPI）方法依赖于对自然图像的固有先验知识来进行信号恢复。然而，人工设计的先验模型在表征复杂多变的实际世界图像的多样性方面往往存在局限性。更重要的是，基于迭代优化的CS方法通常计算效率较低。为了克服这些局限性，最近在SPI领域提出了深度学习方法[13]、[14]，在提高重建质量和计算效率方面显示出显著的优势。随着深度学习在计算机视觉中的兴起，基于CNN[15]、基于RNN[16]、基于Transformer[17]、[18]以及其他衍生类型的深度学习SPI（DLSPI）[19]、[20]相继被提出。与CSSPI相比，DLSPI可以在更低的采样率下恢复更高质量的图像。更重要的是，在深度学习理论和框架快速创新的背景下，DLSPI在成像质量、泛化和计算成本方面仍有很大的改进空间。

在DLSPI领域，CNN的一个根本局限性在于其归纳偏置带来的强烈约束：局部感受野和固定的卷积核严重限制了网络捕捉长距离空间依赖性的能力，迫使全局信息通过多层深度堆栈间接传播。这不仅降低了效率，还倾向于稀释长距离相关性。相比之下，Transformer通过自注意力机制实现了强大的全局上下文建模；然而，它们的计算和内存需求随输入令牌数量的增加而呈二次方增长，这在处理高分辨率图像时带来了巨大的负担。此外，Transformer的弱归纳偏置导致数据需求量大，使其在数据量较少时容易过拟合。

创新的Mamba[21]架构以其高效捕获全局上下文信息的能力而著称，特别是在长距离建模方面表现优异，从而克服了CNN固有的静态局部性限制。其核心优势在于计算效率，这是通过状态空间模型（SSM）实现的。与计算和内存需求随输入长度迅速增长的Transformer不同，Mamba的需求仅与输入大小成比例增加。后续的视觉Mamba[22]成功将Mamba架构扩展到计算机视觉领域，并改进了其单向扫描机制以更好地适应视觉任务。凭借其强大的全局上下文建模能力，Mamba架构非常适合SPI任务，能够有效地表示具有长距离依赖性的高维目标图像。此外，由于单像素测量来自同一场景，且每次测量都编码了高度压缩的信息，因此测量数据之间存在强相关性，即使是在第一个和最后一个值之间也是如此。

2024年，宋等人提出了一种CNN-Mamba单像素成像（CMSPI）混合网络[23]，用于单像素检测，该网络能够捕获局部详细特征和长距离依赖性。他们还提出了分割-连接结构、深度可分离卷积和残差连接等互补设计，以进一步减小网络规模，使训练过程更加平滑，并提高网络建模性能。数值和实际实验结果表明，与基于CNN、RNN和Transformer的SPI方法相比，Mamba网络的应用显著提高了图像重建质量。

上述方法通过线性层将测量的1D数据完全连接到2D图像。V-Mamba模块将2D图像沿行和列扁平化为1D序列，使用选择性扫描独立处理每个序列，然后重新组合它们以形成输出。然而，这种方法忽略了两个重要方面：自然图像中相邻像素之间的固有局部关系和空间连续性，以及以完全不同方式扩展的序列之间的差异。为了克服这些缺点，提出了一种改进的U-Mamba网络，称为UMSPI。我们分别在U-Net的编码和解码层中引入了Mamba模块，使网络在下采样和上采样阶段同时捕获长距离依赖特征和局部空间结构信息。编码阶段的Mamba模块增强了建模测量和掩模之间复杂映射关系的能力，并能在低维表示中保留更多的全局上下文信息。解码阶段的Mamba模块在特征融合和逐层恢复过程中引入了动态状态更新机制，使得重建图像的细节恢复更加准确，边缘结构更加清晰。在Mamba模块中引入了复合S形位移扫描（CSDS）策略，通过基于条带的位移扫描区域和S形扫描路径保留了输入图像的位置特性和连续性。此外，结合了序列混洗注意力（SSA）[24]来计算不同序列对应通道内的注意力权重以实现序列聚合。网络采用U-Net结构实现局部图像特征的重建，并引入改进的Mamba模块实现全局图像特征的重建。仿真和实验结果表明，这种方法在保真度和鲁棒性方面优于先进的DLSPI方法。这项工作为高质量欠采样单像素成像提供了新的思路和方案。

实验部分

SPI的原理

SPI的示意图如图1所示，其数学模型可以表示如下。假设目标2D图像

T (x, y)\inR^{n_{1} \times n}

包含

N

个像素，其中

N

。一系列具有特定顺序的结构化照明图案通过数字微镜装置（DMD）投影到目标场景上。这些照明图案可以表示为

S (x,y)=[S1,S2,,,,SM∈R^{M1 \times n}

，其中

S

表示第

i

个照明图案，

M

是总数

实验

在本节中，通过数值模拟和实际实验来评估所提出的CSDS方案的有效性和UMSPI网络的性能。首先设计了一个控制实验，仅替换Mamba扫描机制，从而隔离并明确评估CSDS的贡献。然后，在模拟和实际实验中使用了网络架构、参数设置、数据集和定量评估指标

结论

总结来说，本文提出了一种基于U-Net和Mamba混合设计的高质量、高效率和通用性的欠采样SPI网络，称为UMSPI。在UMSPI中，通过将Mamba模块嵌入到经典U-Net架构中，将1D测量值重建为2D图像。通过多尺度特征提取，编码器捕获深层表示，而解码器逐步恢复空间分辨率。跳跃连接传输局部细节（例如，

CRediT作者贡献声明

冯少伟：撰写——原始草稿、可视化、验证、软件、资源、方法论、调查、数据管理、概念化。张立山：撰写——审阅与编辑、资源、项目管理、方法论、资金获取、形式分析、概念化。杨阳：撰写——审阅与编辑、验证、监督、方法论、概念化。徐勤浩：验证、调查、数据管理。胡源超：可视化、验证，