生成对抗网络(GANs)(Goodfellow等人,2014年)在图像生成和修复等领域取得了显著的成功(Alonso-Monsalve, Whitehead, 2020年;Ma, Liu, Wu, 2023年)。然而,GANs的学习稳定性仍然是一个持续存在的挑战。这通常源于无法保证生成器和判别器之间的收敛,以及数据分布探索不足。同时,确保高质量的输出也是一个同样关键的挑战,尤其是在数据有限、样本类别众多且噪声较强的情况下。
研究人员提出了多种策略来稳定GANs的学习动态并提高生成样本的多样性。一种方法是引入新的损失函数,例如最小二乘GAN(LSGAN)(Mao等人,2017年)和WassersteinGAN(Arjovsky, Chintala, & Bottou, 2017年)。另一种方法是采用多个判别器或协作架构,如Unrolled GAN(Metz, Poole, Pfau, & Sohl-Dickstein, 2017年)、MIX-plus-GAN(Arora, Ge, & Liang, 2017年)和MCL-GAN(Choi & Han, 2022年)。这些模型提供了更丰富的梯度信息和反馈,有助于稳定整个对抗学习过程。然而,在数据有限、类别众多或噪声模式复杂的场景中,增强数据分布探索和确保生成器与判别器之间的平衡更新仍然存在挑战。
从优化的角度来看,GANs可以被构建为一个极小化-最大化问题:基于共享目标函数,对生成器参数进行最小化,对判别器参数进行最大化。一个有效的学习算法应满足两个基本条件:(i)收敛到平衡点,确保动态稳定并防止生成器在足够迭代后退化;(ii)具有强大的探索能力,使生成器能够搜索广泛的解空间并避免不良的局部平衡,从而提高生成图像的多样性。然而,极小化-最大化问题的理论收敛保证通常依赖于凸性假设,而这在GAN目标中很少成立。
最近的一项进展是Keswani, Mangoubi, Sachdeva, & Vishnoi(2022年)提出的极小化-最大化优化算法,它允许最大化方以贪婪的方式更新其变量,并保证了在有Lipschitz连续梯度的有界目标函数下收敛到近似局部平衡。这种方法主要强调非凸非凹设置下的局部收敛,但缺乏全局探索机制。一个未解决的问题是:我们能否开发出一种在GAN训练中同时确保局部收敛和强大探索能力的优化算法?
增强探索的一个有前景的方向是进化方案,它们提供了强大的全局搜索能力,并促进了更稳定的对抗优化。多项研究展示了它们在解决GANs的模式崩溃和学习不稳定方面的潜力:Wang, Xu, Yao, & Tao(2019年)提出了EGAN,它使用三个损失函数作为变异操作符来指导后代选择。Baioletti, Coello, Bari, & Poggioni(2020a)通过将GAN目标构建为多目标优化问题扩展了这种方法,形成了MOEGAN。Chen等人(2021b)开发了CDE-GAN,它在判别器层面结合了种群多样性,使用了一种软协调机制。Wang等人(2023b)引入了流形插值框架来增强GAN环境中的进化搜索。Shang, Yang, & Ma(2024)提出了ME-GAN,它利用基于协方差的交叉来传递后代之间的特征属性,从而促进多样性。
尽管这些方法具有创新性,但它们仍存在一些局限性:(i)样本稀缺仍然是影响GAN在实际应用中性能的一个重要挑战。虽然主流GAN算法在标准化数据集上表现良好,但在数据有限且高度多样化的现实世界场景中往往表现不佳。我们的实验进一步表明,在数据减少的情况下,各种GAN模型产生的样本质量和多样性明显较低,这反映在FID和IS分数上。(ii)平衡探索和利用的挑战:基于进化的方法通常严重依赖变异操作符,这可能会引入过多的随机性。在像GAN这样的高维模型中,这可能会阻碍局部细化并减缓收敛速度,限制算法微调解决方案的能力。(iii)有限的理论收敛分析:据我们所知,目前还没有针对GANs中的极小化-最大化问题的全面收敛分析。这种缺乏正式保证的情况使得难以评估它们在不同训练设置和架构下的行为,从而给确保稳定和可靠的优化带来了挑战。
为了解决这些挑战,我们提出了GEGAN,这是一种基于梯度的进化算法,旨在实现稳健的图像生成。GEGAN初始化了一组μ个生成器,并应用了基于梯度的变异策略。适应性较低的生成器从随机同伴那里学习以探索多样性,而适应性较高的生成器则模仿表现最好的个体来继承质量特征。在相互学习之后,生成器沿着估计的负梯度进一步优化以加速收敛。接受-拒绝策略保留了那些在下一代中表现出足够适应性改进的个体。本文的主要贡献如下。
(i) 我们引入了一种基于梯度的变异操作符,它将梯度方向直接纳入进化更新中。该操作符允许个体从最佳候选者或随机选择的同伴那里学习,然后沿着估计的梯度方向进行探索。这种机制增强了利用和探索能力,结合选择操作符和判别器更新规则,显著提高了数据稀缺环境下的全局搜索能力。
(ii) 我们为提出的GEGAN框架提供了理论收敛性证明。利用基于梯度的变异和基于接受-拒绝的选择机制,我们证明了被接受的后代以高概率提高预期适应性。在温和的平滑性和有界方差假设下,我们进一步证明了种群中最好的生成器以高概率收敛到GAN极小化-最大化目标的近似局部平衡。这一结果为进化GAN提供了首批正式的收敛性分析之一,并填补了现有工作中的一个重要空白。
在多个基准数据集上的广泛实验验证了GEGAN的有效性。与最先进的GAN变体(包括基于梯度的方法和进化方法)相比,GEGAN在图像质量和多样性方面都取得了更好的性能。例如,与LSGAN相比,它在notMNIST上的FID降低了39.8%,并在Omniglot上获得了最高的IS分数(2.209)。与进化基线相比,GEGAN在notMNIST上的FID降低了33.7%,在Omniglot上的MMD降低了28.0%。此外,在Nemenyi测试中,GEGAN在Fq指标上获得了最高排名(平均排名1.04),并且在MMD指标上的排名达到了1.36,超过了CD阈值。
本文的其余部分组织如下。第2节介绍了生成对抗网络和进化算法的背景知识。第3节回顾了与GAN和进化GAN相关的工作。第4节介绍了提出的GEGAN方法。第5节提供了收敛性分析。第6节报告并讨论了实验结果。最后,第7节总结了本文。