CoDE-GAN：一种内容解耦且经过优化的GAN模型，用于草图引导的灵活时尚编辑

时间：2025年11月10日

来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

中国摘要：本文提出了一种新型生成对抗网络模型CoDE-GAN，用于灵活编辑时尚服装图像。通过内容解耦模块（CDM）分离图像的结构和纹理信息，并结合内容增强模块（CEM）提升生成图像的纹理一致性。实验表明，CoDE-GAN在多个数据集上显著优于现有方法，尤其在保持结构一致性和纹理细节方面表现突出。

在人工智能和计算机视觉领域，图像编辑技术正经历着快速的发展。当前，基于生成对抗网络（GANs）和扩散模型等生成模型，已经实现了通过文本描述、语义分割和参考风格图像等输入对图像内容进行自动编辑。然而，在时尚图像编辑这一具体应用场景中，传统的编辑方法往往在灵活性和可控性方面存在局限。为了应对这一挑战，本文提出了一种新型的生成模型，名为Content Decoupled and Enhanced GAN（CoDE-GAN），旨在实现更灵活的图像编辑，同时保持生成图像的色彩一致性和纹理合理性。

### 问题背景与研究动机

在日常生活中，时尚图像编辑是许多用户在在线购物和设计过程中经常遇到的需求。例如，用户可能希望将现有的服装图像进行修改，以实现不同的款式、长度或颜色，而无需复杂的图像处理软件。然而，现有的方法通常依赖于图像的语义信息和参考图像，对于某些特定的编辑需求，例如仅对图像某一部分进行编辑，往往难以达到理想效果。此外，这些方法通常需要用户输入详细的文本描述或参考图像，限制了其在实际应用中的灵活性。

因此，研究者们开始探索以素描图（sketch）作为输入的图像编辑方法。素描图提供了一种简洁的方式，让用户可以专注于图像的结构信息，而忽略细节。然而，由于素描图在CNN特征空间中容易被稀释，许多现有的方法在处理纹理信息时效果不佳。为了解决这些问题，本文提出了CoDE-GAN，一种能够更好地处理结构和纹理信息的生成模型。

### CoDE-GAN的创新点

CoDE-GAN的核心创新在于引入了一个**内容解耦模块（CDM）**，该模块能够将输入图像内容解耦为结构和纹理表示。具体来说，CDM包括一个**条件解耦块（CDB）**，它负责从输入中提取结构和纹理条件，并通过两个专门设计的编码器分别学习结构和纹理的表示。这种结构有助于模型更好地理解图像的结构信息，同时避免了对纹理信息的过度依赖。

此外，CoDE-GAN还引入了一个**内容增强模块（CEM）**，该模块用于进一步提升生成图像的纹理一致性。CEM通过对解码器的中间特征进行处理，生成一个内容响应图（Content Response Map），并将其与灰度图像进行对比，以确保生成的纹理与原始图像保持一致。这种方法不仅提高了图像编辑的质量，还增强了模型对图像结构的感知能力。

与传统的图像编辑方法相比，CoDE-GAN的一个显著优势在于其能够在单个阶段内实现从粗到细的编辑效果，避免了多阶段模型的复杂性。这种单阶段的设计不仅提高了模型的效率，还使得图像编辑更加直观和灵活。此外，CoDE-GAN能够处理不同形状的编辑区域，例如自由形式的掩码和矩形掩码，从而适应多种编辑需求。

### 实验与结果分析

为了验证CoDE-GAN的有效性，本文在多个数据集上进行了广泛的实验，包括**时尚人类数据集（ATR）**、**服装数据集（Garment）**、**SG-Fashion数据集**以及**LSUN户外教堂数据集**。这些数据集涵盖了从人体图像到服装图像再到场景图像的多种类型，确保了模型的泛化能力。

实验结果表明，CoDE-GAN在多个评估指标上均优于其他最先进的方法。在**Fréchet Inception Distance (FID)**、**Structural Similarity Index (SSIM)**和**Peak Signal-to-Noise Ratio (PSNR)**等指标上，CoDE-GAN均取得了显著的提升。FID衡量生成图像与真实图像之间的分布差异，而SSIM和PSNR则用于评估生成图像与真实图像之间的结构和纹理一致性。FID值越低，SSIM和PSNR值越高，表示生成图像越接近真实图像。

此外，本文还对不同掩码形状和比例进行了分析，发现CoDE-GAN在自由形式掩码和矩形掩码上均表现出良好的性能。特别是在自由形式掩码中，CoDE-GAN能够保持较高的FID和SSIM值，说明其在处理复杂掩码时具有更强的鲁棒性。

### 与其他方法的比较

为了进一步验证CoDE-GAN的优越性，本文将其与其他几种图像编辑方法进行了比较，包括**Gated Conv**、**E2I**、**DeFLOCNet**、**SC-FEGAN**、**SketchEdit**、**ControlNet**和**Uni-ControlNet**。这些方法各有特点，如Gated Conv和E2I采用了从粗到细的结构，而DeFLOCNet和SC-FEGAN则利用了U-Net结构和条件引导机制。

然而，这些方法在处理纹理一致性方面存在局限。例如，ControlNet和Uni-ControlNet在没有文本描述的情况下，难以生成与未编辑区域一致的纹理，导致生成图像的纹理模糊。相比之下，CoDE-GAN通过引入CDM和CEM模块，能够在结构和纹理上实现更精确的控制，从而生成更高质量的图像。

### 模型的灵活性与应用潜力

CoDE-GAN不仅在定量指标上表现优异，还在定性方面展示了其强大的编辑能力。例如，在Atr数据集上，CoDE-GAN能够成功地修改服装的长度和形状，同时保持与背景的一致性。而在Garment数据集上，CoDE-GAN能够同时编辑多个服装区域，如袖子部分，且在生成纹理方面表现得更加自然和精细。

此外，CoDE-GAN还具备良好的计算效率。虽然其在训练和推理过程中略高于基线模型，但这种提升在图像质量的显著改善面前显得微不足道。在实际应用中，这种计算效率的提升使得CoDE-GAN能够更好地支持交互式图像编辑，满足用户对实时反馈的需求。

### 模型的局限性与未来方向

尽管CoDE-GAN在多个方面表现出色，但它仍然存在一些局限性。例如，在处理具有复杂背景或相似颜色的图像时，模型可能会受到背景信息的干扰，导致生成的纹理不够准确。此外，CoDE-GAN在某些情况下仍然无法完全避免生成图像中的伪影，这可能与模型对结构和纹理的区分能力有关。

针对这些局限性，本文提出了未来的研究方向。例如，可以探索引入更多种类的引导信息，如纹理块，以提升模型对纹理的感知能力。此外，可以结合更先进的生成模型，如生成流模型或去噪扩散模型，以进一步提升图像生成的质量。最后，CoDE-GAN还有潜力应用于其他图像编辑任务，如图像修复和引导图像重建，为更广泛的图像编辑场景提供支持。

### 结论

本文提出的CoDE-GAN是一种创新的图像编辑方法，能够在保持图像色彩一致性和纹理合理性的前提下，实现更灵活的图像编辑。通过引入内容解耦模块和内容增强模块，CoDE-GAN能够更好地处理素描图引导的图像编辑任务，同时在多个数据集上取得了显著的实验结果。未来的研究可以进一步探索如何提升模型在复杂背景下的表现，并拓展其在其他图像编辑任务中的应用。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部