MATdiff：一种具有扩散模型的掩码感知变换器，用于大尺寸掩码图像修复

生物通首页 > 今日动态 > 正文

MATdiff：一种具有扩散模型的掩码感知变换器，用于大尺寸掩码图像修复

时间：2026年2月14日

来源：Neurocomputing

编辑推荐：

语义一致性增强的大掩码图像补全方法，提出MATdiff框架整合Transformer的语义建模与扩散模型的生成能力，设计DGDT训练策略优化数据分布建模，实验验证其在CelebA-HQ和Places数据集上显著提升结构一致性和视觉质量。

Suxia Wang|Wenjing Zhao|Jianbing Liang|Weimin Zhang|Shuang Zhao

国防科技大学计算机科学与技术学院，长沙，410073，中国

摘要

扩散模型在图像修复方面表现出色，但其随机性往往导致修复区域与图像已知部分之间存在语义不一致，尤其是在大遮罩情况下。虽然变换器在捕捉长距离语义依赖关系方面表现出优势，但其高计算复杂性限制了其在处理大面积缺失区域时的应用能力，可能影响结构一致性。为了解决这些问题，我们提出了MATdiff，这是一个统一框架，它有效地将基于变换器的语义建模与扩散模型的生成能力相结合。具体来说，我们使用了一种具有遮罩感知能力的变换器（MAT）作为条件编码器，从可见区域捕获语义连贯的特征，从而在反向扩散过程中限制随机生成并保持全局结构一致性。此外，我们引入了一种基于分布的扩散训练（DGDT）策略，该策略利用预训练的无条件潜在扩散模型和固定的条件编码器，实现MATdiff框架的端到端优化。DGDT利用扩散模型学习到的数据分布来帮助生成大面积遮罩修复的合理整体结构。在CelebA-HQ和Places数据集上的广泛实验表明，MATdiff在图像修复方面取得了优异的性能，生成了语义连贯、结构一致且视觉保真度高的结果，同时相比基线MAT也有显著改进。

引言

图像修复旨在根据已知区域的上下文信息合理重建图像的缺失部分，从而恢复受损图像的完整性和视觉一致性。随着深度学习的发展，基于卷积神经网络（CNN）的模型表现出出色的局部感知能力，并且可以通过多层卷积高效提取细粒度邻域细节[25]，使其适用于修复小面积损坏区域或具有分散遮罩的图像。然而，由于感受野随网络深度线性增长，CNN难以有效建模远距离像素之间的语义关系，限制了其捕捉全局上下文信息的能力[36]、[58]、[72]。因此，当大面积区域缺失时，修复结果常常会出现边界伪影、结构扭曲、模糊以及修复内容与周围区域之间的不一致[17]、[32]、[44]。此外，传统的基于CNN的方法无法充分恢复剩余可见部分的图像结构和高频信息。为了解决感受野的限制，可以引入上下文注意力机制[68]、[69]来增强网络聚合长距离信息的能力。此外，还可以使用用户指导[52]、[62]、[77]、纹理指导[39]和多样性生成[81]等措施来帮助模型获得合理的结果。尽管如此，这些方法通常依赖于额外的输入或无法完全捕捉全局结构。

自从引入变换器[59]以来，图像修复领域取得了显著进展。变换器模型通过自注意力机制[11]、[29]在图像块之间建立了长距离交互。这种能力使它们能够通过聚合已知像素的上下文信息来推断和完成缺失区域，从而基于长距离语义关系实现完整的内容重建。然而，变换器的计算复杂性通常会随着输入序列长度的平方而增加，这个问题通常可以通过采用稀疏注意力机制或分层特征融合[19]、[31]、[34]来缓解。但这可能会牺牲捕捉长距离信息的能力，限制大面积缺失区域的恢复精度，并妨碍高分辨率图像修复的细节生成。对于低分辨率图像修复，变换器可以有效修复主要结构[60]、[70]、[82]，并且在修复具有大面积缺失区域的图像方面也能表现出良好性能。在高分辨率图像修复中，通常采用两阶段流程。第一阶段使用变换器重建粗略结构，提供稳健的全局布局；第二阶段专注于细化图像细节，通常利用CNN进行局部纹理恢复[60]，或采用跨通道动态卷积结合变换器来适应性地建模局部特征并捕捉全局上下文[71]，或将卷积操作集成到带有通道注意力的变换器模块中以有效融合局部细节和全局上下文[8]。尽管有这些进步，但在缺乏上下文信息且图像纹理过于复杂的情况下，生成真实的纹理仍然是一个挑战。

扩散模型（DMs）[51]、[54]在模拟复杂数据分布[23]、[56]方面表现出显著能力，特别是在图像生成任务中，它们展现了强大的生成能力。作为基于概率的模型，DMs比生成对抗网络（GANs）提供更稳定的训练，并且可以通过共享参数[10]、[41]模拟复杂的图像分布。它们通过迭代去噪过程生成图像，这通常需要多个步骤来产生高质量和多样化的样本[15]、[55]。此外，准确建模图像中的细粒度或不可察觉的细节往往会导致训练期间的高内存消耗[49]，这在应用于大遮罩图像修复任务时是一个重大挑战。

在图像修复中，DMs在反向扩散过程中逐步恢复退化区域，其中来自已知区域的上下文信息指导缺失区域的采样[38]。这种采样方法在图像修复过程中无法捕捉全局上下文，可能会导致采样损坏区域的随机性。生成的内容可能与全局语义不一致[40]。分类器引导[10]可以通过分类器指导扩散模型生成指定类型的图像，并在采样过程中引入确定性。随着基于潜在扩散模型（LDM）[49]框架的稳定扩散技术的出现，DMs能够支持多模态条件化（例如，文本和图像），从而实现更复杂、灵活和可控的图像合成编辑[47]。这种技术为文本或形状引导的图像修复提供了新的范式，可以有效减少图像修复中的语义和结构不一致[22]、[53]、[64]。然而，这些方法主要设计用于交互式、用户引导的场景，它们在具有大面积缺失区域和严重受限上下文信息的情况下的鲁棒性仍需进一步研究。

图像修复本质上是一个自监督学习问题。当图像大面积缺失或缺失内容具有复杂结构时，任何模型都很难从有限的可见像素中推断出合理的语义内容，使得图像修复成为一个极具挑战性的任务。正如多视图和张量完成方法[61]、[67]、跨区域和跨模态特征交互[73]、[74]以及多尺度CNN-注意力网络[75]所展示的，有效建模语义和结构一致性对于恢复大遮罩图像修复中的缺失区域至关重要。这些挑战促使人们结合长距离语义建模和互补的生成机制来进行大遮罩图像修复。

基于变换器的扩散模型的最新进展进一步证明了自注意力机制在捕捉长距离语义依赖关系方面的有效性，从而提高了图像生成和编辑中的全局语义一致性[42]、[45]。然而，现有方法并非专门为大遮罩图像修复设计，后者需要明确建模缺失区域和更强的全局语义一致性。

因此，我们提出了一种新的图像修复模型，将变换器的优点与扩散模型的优点结合起来，即具有遮罩感知能力的变换器与扩散模型（MATdiff）。具有遮罩感知能力的变换器（MAT）[28]作为扩散模型反向过程中的条件编码器。这种方法将局部和长距离语义信息引入扩散模型，从而减轻了扩散过程的固有随机性，并在大遮罩图像修复中生成语义连贯且视觉一致的修复区域。将语义相关特征和表示解耦[3]、[6]使扩散模型能够避免将语义线索与随机生成混淆，强调数据分布建模。基于这一洞察，我们采用了一种专门的训练策略——基于分布的扩散训练（DGDT），该策略利用内在的数据分布来帮助生成大遮罩图像修复的全球合理结构。

总结来说，我们的主要贡献如下：

(1)

我们提出了MATdiff，这是一种结合了变换器和扩散模型优势的新条件扩散修复模型。通过利用具有遮罩感知能力的变换器（MAT）的输出特征来指导条件潜在扩散模型，MATdiff保持了长距离语义一致性，并确保了修复图像与真实图像之间的局部一致性。

(2)

我们提出了一种高效的训练策略——基于分布的扩散训练（DGDT）。DGDT强调了扩散模型学习到的内在数据分布。这种策略使MATdiff能够在大遮罩图像修复中生成全局合理且语义连贯的结构，从而提高了结构完整性和视觉保真度。

(3)

MATdiff通过更准确地捕捉目标数据分布，改进了具有遮罩感知能力的变换器（MAT）[28]。与单独使用MAT相比，MATdiff在大遮罩图像修复中提高了结构完整性和视觉保真度，有效解决了MAT在纹理生成和结构一致性方面的局限性。

(4)

MATdiff在CelebA-HQ [35]和Places [83]基准数据集上取得了优异的性能。

早期基于偏微分方程（PDE）扩散[1]、基于补丁的技术[2]或基于示例的方法[26]的图像修复方法，利用图像已知区域的低级特征来重建缺失区域。对于结构简单且缺失区域较小的图像，这些方法可以生成视觉上逼真的图像。基于深度学习的图像修复模型通过在多个层次提取语义特征，为处理复杂图像修复提供了新的解决方案

初步

扩散模型（DMs）[54]是一种概率生成模型，包括前向（去噪）扩散过程和反向（去噪）生成过程。在前向过程中，模型从原始数据开始

并逐步添加高斯噪声，最终生成近似标准正态分布的噪声数据

。在反向过程中，模型学会从噪声数据开始

并逐渐去除噪声以恢复数据。这使得DMs能够

实现与评估

我们对MATdiff与几种最先进的图像修复方法进行了比较分析。结果表明，MATdiff有效缓解了扩散模型中常见的遮罩区域和未遮罩区域之间的结构和语义不一致性问题。特别是在大遮罩修复方面，MATdiff显示出显著优势。此外，通过一系列消融实验，我们验证了所提出的训练策略和图像编码器MAT起着关键作用

结论

本文介绍了一种针对大遮罩图像设计的图像修复模型，称为具有潜在扩散模型的具有遮罩感知能力的变换器（MATdiff），它使用具有遮罩感知能力的变换器（MAT）作为潜在扩散模型（LDM）的条件编码器。MAT提取的语义信息用于指导LDM的生成过程，旨在减少生成样本的随机性。这确保了生成的图像与原始图像保持高度一致

CRediT作者贡献声明

Suxia Wang：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，方法论，调查，形式分析，数据整理，概念化。Wenjing Zhao：监督，方法论，概念化。Jianbing Liang：可视化，验证，形式分析，数据整理。Weimin Zhang：监督，项目管理，方法论，资金获取。Shuang Zhao：验证，形式分析。