CoDE-GAN:一种内容解耦且经过优化的GAN模型,用于草图引导的灵活时尚编辑

时间:2025年11月10日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

中国摘要:本文提出了一种新型生成对抗网络模型CoDE-GAN,用于灵活编辑时尚服装图像。通过内容解耦模块(CDM)分离图像的结构和纹理信息,并结合内容增强模块(CEM)提升生成图像的纹理一致性。实验表明,CoDE-GAN在多个数据集上显著优于现有方法,尤其在保持结构一致性和纹理细节方面表现突出。

广告
   X   

在人工智能和计算机视觉领域,图像编辑技术正经历着快速的发展。当前,基于生成对抗网络(GANs)和扩散模型等生成模型,已经实现了通过文本描述、语义分割和参考风格图像等输入对图像内容进行自动编辑。然而,在时尚图像编辑这一具体应用场景中,传统的编辑方法往往在灵活性和可控性方面存在局限。为了应对这一挑战,本文提出了一种新型的生成模型,名为Content Decoupled and Enhanced GAN(CoDE-GAN),旨在实现更灵活的图像编辑,同时保持生成图像的色彩一致性和纹理合理性。

### 问题背景与研究动机

在日常生活中,时尚图像编辑是许多用户在在线购物和设计过程中经常遇到的需求。例如,用户可能希望将现有的服装图像进行修改,以实现不同的款式、长度或颜色,而无需复杂的图像处理软件。然而,现有的方法通常依赖于图像的语义信息和参考图像,对于某些特定的编辑需求,例如仅对图像某一部分进行编辑,往往难以达到理想效果。此外,这些方法通常需要用户输入详细的文本描述或参考图像,限制了其在实际应用中的灵活性。

因此,研究者们开始探索以素描图(sketch)作为输入的图像编辑方法。素描图提供了一种简洁的方式,让用户可以专注于图像的结构信息,而忽略细节。然而,由于素描图在CNN特征空间中容易被稀释,许多现有的方法在处理纹理信息时效果不佳。为了解决这些问题,本文提出了CoDE-GAN,一种能够更好地处理结构和纹理信息的生成模型。

### CoDE-GAN的创新点

CoDE-GAN的核心创新在于引入了一个**内容解耦模块(CDM)**,该模块能够将输入图像内容解耦为结构和纹理表示。具体来说,CDM包括一个**条件解耦块(CDB)**,它负责从输入中提取结构和纹理条件,并通过两个专门设计的编码器分别学习结构和纹理的表示。这种结构有助于模型更好地理解图像的结构信息,同时避免了对纹理信息的过度依赖。

此外,CoDE-GAN还引入了一个**内容增强模块(CEM)**,该模块用于进一步提升生成图像的纹理一致性。CEM通过对解码器的中间特征进行处理,生成一个内容响应图(Content Response Map),并将其与灰度图像进行对比,以确保生成的纹理与原始图像保持一致。这种方法不仅提高了图像编辑的质量,还增强了模型对图像结构的感知能力。

与传统的图像编辑方法相比,CoDE-GAN的一个显著优势在于其能够在单个阶段内实现从粗到细的编辑效果,避免了多阶段模型的复杂性。这种单阶段的设计不仅提高了模型的效率,还使得图像编辑更加直观和灵活。此外,CoDE-GAN能够处理不同形状的编辑区域,例如自由形式的掩码和矩形掩码,从而适应多种编辑需求。

### 实验与结果分析

为了验证CoDE-GAN的有效性,本文在多个数据集上进行了广泛的实验,包括**时尚人类数据集(ATR)**、**服装数据集(Garment)**、**SG-Fashion数据集**以及**LSUN户外教堂数据集**。这些数据集涵盖了从人体图像到服装图像再到场景图像的多种类型,确保了模型的泛化能力。

实验结果表明,CoDE-GAN在多个评估指标上均优于其他最先进的方法。在**Fréchet Inception Distance (FID)**、**Structural Similarity Index (SSIM)**和**Peak Signal-to-Noise Ratio (PSNR)**等指标上,CoDE-GAN均取得了显著的提升。FID衡量生成图像与真实图像之间的分布差异,而SSIM和PSNR则用于评估生成图像与真实图像之间的结构和纹理一致性。FID值越低,SSIM和PSNR值越高,表示生成图像越接近真实图像。

此外,本文还对不同掩码形状和比例进行了分析,发现CoDE-GAN在自由形式掩码和矩形掩码上均表现出良好的性能。特别是在自由形式掩码中,CoDE-GAN能够保持较高的FID和SSIM值,说明其在处理复杂掩码时具有更强的鲁棒性。

### 与其他方法的比较

为了进一步验证CoDE-GAN的优越性,本文将其与其他几种图像编辑方法进行了比较,包括**Gated Conv**、**E2I**、**DeFLOCNet**、**SC-FEGAN**、**SketchEdit**、**ControlNet**和**Uni-ControlNet**。这些方法各有特点,如Gated Conv和E2I采用了从粗到细的结构,而DeFLOCNet和SC-FEGAN则利用了U-Net结构和条件引导机制。

然而,这些方法在处理纹理一致性方面存在局限。例如,ControlNet和Uni-ControlNet在没有文本描述的情况下,难以生成与未编辑区域一致的纹理,导致生成图像的纹理模糊。相比之下,CoDE-GAN通过引入CDM和CEM模块,能够在结构和纹理上实现更精确的控制,从而生成更高质量的图像。

### 模型的灵活性与应用潜力

CoDE-GAN不仅在定量指标上表现优异,还在定性方面展示了其强大的编辑能力。例如,在Atr数据集上,CoDE-GAN能够成功地修改服装的长度和形状,同时保持与背景的一致性。而在Garment数据集上,CoDE-GAN能够同时编辑多个服装区域,如袖子部分,且在生成纹理方面表现得更加自然和精细。

此外,CoDE-GAN还具备良好的计算效率。虽然其在训练和推理过程中略高于基线模型,但这种提升在图像质量的显著改善面前显得微不足道。在实际应用中,这种计算效率的提升使得CoDE-GAN能够更好地支持交互式图像编辑,满足用户对实时反馈的需求。

### 模型的局限性与未来方向

尽管CoDE-GAN在多个方面表现出色,但它仍然存在一些局限性。例如,在处理具有复杂背景或相似颜色的图像时,模型可能会受到背景信息的干扰,导致生成的纹理不够准确。此外,CoDE-GAN在某些情况下仍然无法完全避免生成图像中的伪影,这可能与模型对结构和纹理的区分能力有关。

针对这些局限性,本文提出了未来的研究方向。例如,可以探索引入更多种类的引导信息,如纹理块,以提升模型对纹理的感知能力。此外,可以结合更先进的生成模型,如生成流模型或去噪扩散模型,以进一步提升图像生成的质量。最后,CoDE-GAN还有潜力应用于其他图像编辑任务,如图像修复和引导图像重建,为更广泛的图像编辑场景提供支持。

### 结论

本文提出的CoDE-GAN是一种创新的图像编辑方法,能够在保持图像色彩一致性和纹理合理性的前提下,实现更灵活的图像编辑。通过引入内容解耦模块和内容增强模块,CoDE-GAN能够更好地处理素描图引导的图像编辑任务,同时在多个数据集上取得了显著的实验结果。未来的研究可以进一步探索如何提升模型在复杂背景下的表现,并拓展其在其他图像编辑任务中的应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有