图像修复旨在根据已知区域的上下文信息合理重建图像的缺失部分,从而恢复受损图像的完整性和视觉一致性。随着深度学习的发展,基于卷积神经网络(CNN)的模型表现出出色的局部感知能力,并且可以通过多层卷积高效提取细粒度邻域细节[25],使其适用于修复小面积损坏区域或具有分散遮罩的图像。然而,由于感受野随网络深度线性增长,CNN难以有效建模远距离像素之间的语义关系,限制了其捕捉全局上下文信息的能力[36]、[58]、[72]。因此,当大面积区域缺失时,修复结果常常会出现边界伪影、结构扭曲、模糊以及修复内容与周围区域之间的不一致[17]、[32]、[44]。此外,传统的基于CNN的方法无法充分恢复剩余可见部分的图像结构和高频信息。为了解决感受野的限制,可以引入上下文注意力机制[68]、[69]来增强网络聚合长距离信息的能力。此外,还可以使用用户指导[52]、[62]、[77]、纹理指导[39]和多样性生成[81]等措施来帮助模型获得合理的结果。尽管如此,这些方法通常依赖于额外的输入或无法完全捕捉全局结构。
自从引入变换器[59]以来,图像修复领域取得了显著进展。变换器模型通过自注意力机制[11]、[29]在图像块之间建立了长距离交互。这种能力使它们能够通过聚合已知像素的上下文信息来推断和完成缺失区域,从而基于长距离语义关系实现完整的内容重建。然而,变换器的计算复杂性通常会随着输入序列长度的平方而增加,这个问题通常可以通过采用稀疏注意力机制或分层特征融合[19]、[31]、[34]来缓解。但这可能会牺牲捕捉长距离信息的能力,限制大面积缺失区域的恢复精度,并妨碍高分辨率图像修复的细节生成。对于低分辨率图像修复,变换器可以有效修复主要结构[60]、[70]、[82],并且在修复具有大面积缺失区域的图像方面也能表现出良好性能。在高分辨率图像修复中,通常采用两阶段流程。第一阶段使用变换器重建粗略结构,提供稳健的全局布局;第二阶段专注于细化图像细节,通常利用CNN进行局部纹理恢复[60],或采用跨通道动态卷积结合变换器来适应性地建模局部特征并捕捉全局上下文[71],或将卷积操作集成到带有通道注意力的变换器模块中以有效融合局部细节和全局上下文[8]。尽管有这些进步,但在缺乏上下文信息且图像纹理过于复杂的情况下,生成真实的纹理仍然是一个挑战。
扩散模型(DMs)[51]、[54]在模拟复杂数据分布[23]、[56]方面表现出显著能力,特别是在图像生成任务中,它们展现了强大的生成能力。作为基于概率的模型,DMs比生成对抗网络(GANs)提供更稳定的训练,并且可以通过共享参数[10]、[41]模拟复杂的图像分布。它们通过迭代去噪过程生成图像,这通常需要多个步骤来产生高质量和多样化的样本[15]、[55]。此外,准确建模图像中的细粒度或不可察觉的细节往往会导致训练期间的高内存消耗[49],这在应用于大遮罩图像修复任务时是一个重大挑战。
在图像修复中,DMs在反向扩散过程中逐步恢复退化区域,其中来自已知区域的上下文信息指导缺失区域的采样[38]。这种采样方法在图像修复过程中无法捕捉全局上下文,可能会导致采样损坏区域的随机性。生成的内容可能与全局语义不一致[40]。分类器引导[10]可以通过分类器指导扩散模型生成指定类型的图像,并在采样过程中引入确定性。随着基于潜在扩散模型(LDM)[49]框架的稳定扩散技术的出现,DMs能够支持多模态条件化(例如,文本和图像),从而实现更复杂、灵活和可控的图像合成编辑[47]。这种技术为文本或形状引导的图像修复提供了新的范式,可以有效减少图像修复中的语义和结构不一致[22]、[53]、[64]。然而,这些方法主要设计用于交互式、用户引导的场景,它们在具有大面积缺失区域和严重受限上下文信息的情况下的鲁棒性仍需进一步研究。
图像修复本质上是一个自监督学习问题。当图像大面积缺失或缺失内容具有复杂结构时,任何模型都很难从有限的可见像素中推断出合理的语义内容,使得图像修复成为一个极具挑战性的任务。正如多视图和张量完成方法[61]、[67]、跨区域和跨模态特征交互[73]、[74]以及多尺度CNN-注意力网络[75]所展示的,有效建模语义和结构一致性对于恢复大遮罩图像修复中的缺失区域至关重要。这些挑战促使人们结合长距离语义建模和互补的生成机制来进行大遮罩图像修复。
基于变换器的扩散模型的最新进展进一步证明了自注意力机制在捕捉长距离语义依赖关系方面的有效性,从而提高了图像生成和编辑中的全局语义一致性[42]、[45]。然而,现有方法并非专门为大遮罩图像修复设计,后者需要明确建模缺失区域和更强的全局语义一致性。
因此,我们提出了一种新的图像修复模型,将变换器的优点与扩散模型的优点结合起来,即具有遮罩感知能力的变换器与扩散模型(MATdiff)。具有遮罩感知能力的变换器(MAT)[28]作为扩散模型反向过程中的条件编码器。这种方法将局部和长距离语义信息引入扩散模型,从而减轻了扩散过程的固有随机性,并在大遮罩图像修复中生成语义连贯且视觉一致的修复区域。将语义相关特征和表示解耦[3]、[6]使扩散模型能够避免将语义线索与随机生成混淆,强调数据分布建模。基于这一洞察,我们采用了一种专门的训练策略——基于分布的扩散训练(DGDT),该策略利用内在的数据分布来帮助生成大遮罩图像修复的全球合理结构。
总结来说,我们的主要贡献如下:
(1)我们提出了MATdiff,这是一种结合了变换器和扩散模型优势的新条件扩散修复模型。通过利用具有遮罩感知能力的变换器(MAT)的输出特征来指导条件潜在扩散模型,MATdiff保持了长距离语义一致性,并确保了修复图像与真实图像之间的局部一致性。
(2)我们提出了一种高效的训练策略——基于分布的扩散训练(DGDT)。DGDT强调了扩散模型学习到的内在数据分布。这种策略使MATdiff能够在大遮罩图像修复中生成全局合理且语义连贯的结构,从而提高了结构完整性和视觉保真度。
(3)MATdiff通过更准确地捕捉目标数据分布,改进了具有遮罩感知能力的变换器(MAT)[28]。与单独使用MAT相比,MATdiff在大遮罩图像修复中提高了结构完整性和视觉保真度,有效解决了MAT在纹理生成和结构一致性方面的局限性。
(4)MATdiff在CelebA-HQ [35]和Places [83]基准数据集上取得了优异的性能。