3 结果
3.1 扩散模型提供了一种可自适应新问题与动态环境的无模型方法
生物进化以其在(缓慢)变化环境中的适应能力而闻名。为了在更贴近生物现实的环境下检验进化过程对变化环境条件的适应能力,研究引入了一个时间依赖的目标函数F(x, t),其中x代表基因型参数实现,t为当前世代。研究比较了启发式自适应扩散模型进化策略(HADES)与其他主流EAs在不同动态环境下的学习能力。
具体而言,研究定义了一个振荡的双峰函数环境,其中一个峰具有正振幅,另一个为负振幅,且振幅随世代t周期性交替变化,从而反转最大化目标。将HADES与CMA-ES(两者种群规模均为N=50)应用于此动态变化环境。结果表明,传统EAs由于其固有的归纳偏差,在跨代更新生成模型时策略迥异。然而,即使是CMA-ES这样强大的主流方法,在看似收敛于某个解后,也可能难以使种群适应不断变化的环境条件。相比之下,HADES通过不断精炼的扩散模型来采样新后代,持续适应其种群,从而 consistently 识别出周期性变化的最大适应度峰。这反映了两种方法各自随时间变化的适应度曲线。
因此,HADES方法为生成高质量基因型数据提供了一种高效且无模型的方法,在需要增强适应能力的场景中表现出色。扩散模型固有的表征能力使其能够可靠地学习任意参数集中微妙的信号和相关性,而其生成阶段的灵活采样能力允许对输出特征进行精确控制。这种强大的相关性学习与灵活生成过程的结合,使得HADES特别适合探索复杂的基因型景观,而传统方法可能难以在其中同时保持多样性和质量。
3.2 来自发育生物学的启示:通过条件扩散模型进化实现中性多目标适应
传统EAs旨在通过生物启发的选择和变异操作,在各自的适应度景观中寻找最优解。然而,在具有多个(不相关或竞争的)目标的问题中,传统EAs常常陷入困境。虽然存在问题特定的奖励塑形和课程学习技术等缓解策略,但这些方法通常需要细致的定制和领域专业知识。这一局限性突显了对能够自然处理多目标场景的更强大、适应性更强的优化框架的需求。
研究从发育生物学中汲取灵感,提出了一种替代方法。近期工作表明,生物进化所做的不仅仅是创造适应特定环境的生物体:它产生了多功能的解决问题系统。这些生物系统展示了实时适应环境线索或特定领域挑战的卓越能力,同时保持其整体生理完整性。这可以被理解为生物系统多尺度生成过程的一种生理调节形式,允许它们调整以适应环境约束,而这些约束对其系统层面的适应度是中性的。
扩散模型通过无分类器引导技术,为在其生成过程中整合外部(环境)线索提供了一个特别合适的框架。扩散模型的基本层面是训练生成(即采样)符合训练数据集分布的新数据x。然而,扩散模型的真正力量在于其有条件地采样展现出所需目标性状或特征y的新数据点的能力。这些特征向量y对数据的选定品质进行数值分类。因此,通过无分类器引导,我们可以明确地引导扩散模型的生成过程,从条件概率分布中采样有偏差的数据点x,其中生成的输出表现出特定的所需目标性状。
这种方法构成了现代文本引导图像和视频生成系统的基础。在这里,研究采用无分类器引导来约束HADES方法中的基因型采样过程,确保 resulting 表型满足其环境中的特定目标条件y。至关重要的是,这个过程独立于适应度分数运作!研究称这种方法为条件、启发式自适应正则化进化策略(CHARLES-D)。
在第一个示例中,研究将CHARLES-D方法应用于寻找静态双峰目标函数的 optimal 解,同时调节扩散模型的生成过程,使其主要在2D平面的特定象限中采样基因型后代。结果显示,调节第一和第三象限的效果非常显著:尽管两个适应度峰在质量上是等效的,但CHARLES-D方法 consistently 收敛到位于条件性目标象限的峰。相反,调节扩散模型采样到缺乏适应度峰的第二和第四象限会导致挫败效应。研究得出结论,HADES中的调节作为一种强大的基因型探索正则化器。这种机制能够选择性地使进化过程偏向探索或避免参数空间的特定区域,或者更广泛地说,偏向具有特定基因型品质的解,而无需改变问题的适应度分数。这种对所需品质的中性适应是通过扩散模型调节与无分类器引导技术优雅地实现的。此外,这些条件可以灵活地制定,并且与优化问题的适应度分数正交,无需可微性。因此,CHARLES-D为多目标优化提供了一种优雅的方法,消除了繁琐的奖励塑形技术的需求。
3.3 分数函数进化为适应度景观的梯度
为了阐明进化动力学并突出该方法的优势,研究分析了分数函数跨代的演变。在基于分数的生成建模中,分数函数定义为数据分布对数概率的梯度。在该框架内,扩散模型在启发式获取的高适应度基因型上进行训练,隐式地学习了一个反映适应度景观的分布。因此,分数函数充当了一个引导搜索朝向更高适应度区域的向量场。
在进化过程中,该方法迭代地精炼这个分数函数。分数函数最初指向一个普遍的高适应度区域,然后分解成不同的向量,同时引导种群朝向多个最优解。这说明了适应度景观的基础生成模型是如何被“在线”逐步优化的。
这种基于分数的视角揭示了一个相对于CMA-ES等方法的基本优势,CMA-ES通常用单一的单峰函数(例如多元高斯分布)对搜索分布进行建模。在复杂或对称的适应度景观中,单峰搜索分布的均值可能落入低梯度区域,导致“平均”梯度消失并停滞优化过程。相比之下,这种基于扩散的方法不易受此问题影响。分数函数是位置依赖的,使其能够捕捉适应度景观的复杂形状。这表明,保持种群多样性和追求多个解并非独立的次要目标,而是复杂解空间中有效优化的内在关键特征。
3.4 从过往经验中学习:基于扩散模型的生成采样器为模块化进化过程提供了一个更强大、更受生物启发的框架
生物进化展现出利用现有的、启发式获取的知识使物种适应变化环境的内在能力。这种能力源于跨进化时间尺度的既定遗传物质的重组。因此,利用先前探索的解并将其适应于新情境代表了生物进化的一个基本原则。在传统的EAs中,整合过往经验仍然 largely 局限于当前种群中存储的启发式信息,或者被CMA-ES等技术用于后代采样的生成模型中。因此,当前EAs中的生成过程对先前探索的解 memory 有限,导致由于记忆丢失或生成模型的固有归纳偏差而效率低下。然而,生成式扩散模型可以通过保存关于先前探索解的信息来配备表观遗传记忆。这可以通过跨多代的数据集缓冲或扩散模型重新训练来实现。
为了证明这一点,研究进行了以下实验:使用静态双峰环境,为CHARLES-D配备一个跨越过去G=5代的内存缓冲区数据集,其中只有最低适应度的解被当前种群数据替换,并实现参数空间第一和第三象限之间的时间依赖性调节。结果显示,CHARLES-D持续收敛到指定的目标峰,即使在进化过程中动态修改条件也能保持性能。值得注意的是,表观遗传记忆使进化过程能够在条件在y_target间变化时,执行不连续的但有针对性的、在先前访问过的高适应度区域之间的转换。研究观察到新目标峰的即时重新填充和先前峰的启发式淡出,而不是在位于x_A和x_B之间的峰之间表现出缓慢的连续适应。这种快速的、有针对性的重新适应在调节转换期间保持了持续的高适应度分数。
因此,实验证明了生成式扩散模型利用进化历史增强优化过程的强大能力。CHARLES-D和HADES中记忆组件和调节方案的整合显著提高了进化算法在动态环境中的适应能力。
3.5 改进过往经验:调节以获得更高适应度可以提高学习性能,但会增加贪婪性
接下来,研究调查了在扩散模型生成过程中应用适应度调节:可以联合训练扩散模型学习关联的参数和适应度分数(x, f),调节采样过程以生成可能获得比先前观察到的更高目标适应度的后代。
由于最大适应度或奖励无法先验获知,研究提出基于费希尔自然选择基本定理采样目标适应度,该定理指出“任何生物体在任何时间的适应度增加速率等于其当时适应度的遗传方差”。这个关于预期适应度改进速率的原理与逆强化学习有 intriguing 的联系,因为不能假设在任意大的适应度上调节扩散模型会产生合理的后代参数,特别是在进化搜索的早期阶段。
然而,为了避免算法变得过于贪婪,这里引入了两种适应度采样方式:费希尔调节f_target^Fisher和贪婪调节f_target^greedy,其中μ_f是均值,max_f是最大值,σ_f是当前种群适应度分数f的标准差。
在双峰任务上预训练的扩散模型的条件采样示例表明,这种适应度调节确实可以显著提高CHARLES-D的学习能力,这为探索复杂的参数空间开辟了新途径。然而,追求跨代过大的适应度增加也可能导致算法更贪婪的行为,从而产生次优收敛。
3.6 新颖性条件采样:探索和保持多样性的良好正则化器
通常,EAs旨在崎岖的参数景观中寻找具有最优适应度值的解。然而,这需要探索与利用之间的 dedicated 平衡。源自发育生物学的最新讨论表明,生物系统在一种不同的范式下运作,其中主体 continuously 探索新的情境以维持其完整性并适应变化的环境。这种对新奇事物的内在驱动力导致新挑战的创造,需要进一步适应,从而创建了一个多样化的支架。将新奇性或对质量-多样性的偏见纳入优化过程(如EAs)可显著提高其性能。这些技术加强了新颖参数区域中的搜索方向,同时惩罚对已体验解的(过度)利用。研究 propose 通过HADES使用新奇性条件采样,而不是通过修改适应度分数直接优化新颖和多样的解。
研究利用了CHARLES-D方法中启发式数据集缓冲区的多样性度量,并调节扩散模型的生成过程以采样多样化的基因型。具体而言,定义了单个数据点x_i的多样性d_i,类似于非参数k-最近邻熵估计器,即其与数据集中所有其他距离大于第k个最近邻距离r_k的数据点x_j在参数空间中的平均距离的对数。在实践中,在进化过程中有条件地训练CHARLES-D时,使用这种多样性度量作为新奇性条件y_i=n_i,并通过偏好大的d_target来采样具有最大化多样性的目标条件的新数据点。
研究在Rastrigin任务上演示了这种方法,并展示了结果。比较了HADES和CHARLES-D实例不同参数化以及主流方法(如简单遗传算法(SimpleGA)、CMA-ES和多起点CMA-ES变体)的适应度和多样性度量。所有求解器在给定世代保持N=50的候选解种群,以确保固定的适应度评估预算。
在模拟中,从σ_init=0.1的窄分布初始条件开始,挑战各自的EAs从适应度景观的中心谷探索并找到位于x*_i的不同峰。研究强调,解不包含在初始种群中。在任何求解器中都不使用精英主义,在HADES和CHARLES-D优化中不使用明确的交叉操作。每一代的后代都直接来自各自求解器的生成模型。
从结果观察到,HADES和新奇性条件的CHARLES-D方法在此任务上表现出色:两种方法在50次独立的优化运行中都能快速可靠地识别最优解。这些方法表现出比CMA-ES和多起点CMA-ES更快的收敛速度,而SimpleGA未能识别全局最优解并停留在中心最近
的局部最优峰。此外,这些方法 intrinsically 保持了高度的多样性,体现在种群参数持续的高熵值。这种多样性表现为这些方法能够可靠地识别复杂适应度景观中的多个最优解。贪婪适应度调节更快地解决问题,但平均而言收敛速度比前两种求解器配置慢。贪婪探索保持了高熵,并且出乎意料地,随着时间的推移表现出探索行为。费希尔适应度调节和CMA-ES表现出有限的多样性,并且通常收敛到单一最优解。
为了说明这一点,研究引入了Rastrigin问题的一个“扭曲”变体。通过非线性变换坐标空间x',沿着向外螺旋的模式扭曲Rastrigin函数的峰,其中全局最大值相对于中心附近的初始局部最优解被扭曲。适应度景观的这种几何修改显著影响了CMA-ES和多起点CMA-ES的可靠性,而HADES和CHARLES-D方法尽管复杂度增加,仍保持了其性能。
在所有情况下,使用新奇性条件在扩散模型的生成过程中引入了参数簇之间的排斥 bias。这导致了两个关键结果:加速参数空间中高适应度区域的探索,同时增加种群多样性。虽然CMA-ES、SimpleGA和基于费希尔的CHARLES-D收敛到单一解且多样性有限,但多起点CMA-ES、HADES,特别是新奇性条件(贪婪)的CHARLES-D求解器即使在适应度收敛后仍保持了显著更高的多样性。多起点CMA-ES通过维护多个独立种群来实现这一点,跨谱系整合的信息很少。反过来,HADES和CHARLES-D表明,具有更灵活生成模型的单一种群能够同时探索多个解,并且如果环境条件发生变化,种群会 intrinsically 探索新的参数空间区域。值得注意的是,使用了一个静态的适应度景观,但可能会将种群视为环境的一部分,竞争资源。新奇性调节对适应敏感,特别是对环境中种群的聚集,使得CHARLES-D的环境动态变化。这反过来影响了跨代扩散模型的繁殖过程,促进了探索行为。平均而言,新奇性条件的CHARLES-D方法显示出比相应的非新奇性条件配置更高的多样性。
对新奇性的调节有效地应用中性的选择压力,促进种群多样性,同时独立地优化适应度分数。这种方法作为扩散模型进化的一种有效正则化机制,在保持利用精英解簇的能力的同时,生成多样且新颖的解。
3.7 基因层面调节行为:信息如何跨越尺度
到目前为止,已经证明了CHARLES-D方法如何应用于约束(i)参数空间中的搜索动力学,(ii)跨代样本的适应度质量,甚至(iii)改善扩散进化优化过程中的种群范围多样性。基于这些结果,探索了其在选择性采样基因型参数以实现所需表型性状方面的应用。具体而言,研究解释了是否可以使用(i)基因型表示和(ii)强化学习(RL)环境中主体的相关表型品质,有条件地训练CHARLES-D中的扩散模型。目标是在进化过程中选择性地采样表现出特定目标行为的RL主体,值得注意的是,无需预训练扩散模型。
传统的RL应用旨在识别使自主主体能够有效 navigate 其环境的策略:RL主体感知其环境的不同方面,例如状态信息和奖励信号,并且需要提出使奖励获取最大化的行动。主体的策略,即其内部决策机制,通常由人工神经网络建模,接收环境状态作为输入,并输出使主体能够高效 navigate 其环境的高质量行动。因此,挑战在于识别使主体能够最大化奖励获取的ANN参数,这对应于高适应度分数。这通常通过基于梯度的RL算法实现,这需要仔细设计可微的奖励信号。特别是在多目标场景中,要么需要繁琐的奖励塑形或课程学习技术来平衡不同的奖励信号,要么环境需要极其通用,导致大量的计算开销和潜在不可预测的行为。相比之下,EAs已被证明在进化出基于累积奖励度量的、精简且针对特定问题的ANN-based RL主体策略方面非常成功,并且 often 产生更 robust、可转移和可解释的主体策略。如图7B所示,HADES可以在少至g≈10代内解决问题,而CMA-ES和SimpleGA则需要长一个数量级的时间。
接下来,重点控制小车的静止位置x_rest,它表示在一个 episode 的最后Δt=50步中小车稳定杆子的平均位置。进行了n=100次独立的HADES优化试验,期间记录了ANN参数及其相应的行为结果(x, x_rest)。为了基于RL主体参数预测静止位置,训练了一个深度ANN,表示为F_θ,使得x_rest ≈ F_θ(x)。目标是最小化加权均方误差,其中f用作权重因子。如图7C所示,预测精度对于适应度f>400的主体特别强。值得注意的是,这些高适应度主体表现出的静止位置跨越了x_rest的整个范围。
使用早期HADES评估中参数和相关行为数据(x, x_rest)的联合数据库,在此遗传数据库上“离线”训练一个生成式扩散模型,即不在任何进一步优化中使用该扩散模型。然后使用该扩散模型有条件地采样新的基因型x',这些基因型参数化RL主体的行为,以在特定目标位置x*_rest平衡杆子。图7D的结果表明,条件采样在使相应的RL主体表现出所需目标行为方面实现了良好的准确性。
最后,使用CHARLES-D方法进化一个初始随机化的ANN参数种群,用于小车-杆控制器,使其表现出特定的目标行为,即在静止位置x_rest∈{A, B, C}平衡杆子。这是通过不修改奖励信号,而是使用扩散模型在进化过程中探索的ANN参数x及其相关的平均静止位置x_rest上进行条件训练来实现的。然后通过调节扩散模型在y_target=x_rest上,选择性地生成后代基因型。值得注意的是,这个实验是独立于图7C,D中讨论的数据库和预训练扩散模型进行的。相反,从一个随机化的初始种群和一个随机初始化的扩散模型开始,该模型仅在各自进化的小车-杆主体种群中探索的参数上进行训练,即以“在线”模式。图7E显示了三个独立谱系测量的静止位置x_rest,分别对应y_target=A, B, C。这些位置x_rest对应的生成主体在n_eps=10个连续的 episodes 中达到了平均适应度分数500。
3.8 通过条件采样实现行为偏置可以可靠地解决稀疏奖励环境
研究表明,条件扩散进化(CHARLES-D)可用于提高奖励稀疏环境中的搜索效率。通过引入条件,能够在不依赖奖励塑形的情况下,引导进化搜索朝向解空间中有希望的区域。作为一个案例研究,考虑了来自OpenAI Gym的MountainCar-v0环境。在此任务中,一辆小车必须通过左右移动以建立足够的动量,从而爬上山丘的正确一侧,如图8A所示。主体感知一个2D状态向量,包括每个时间步t小车的位置x_t和速度v_t,并在达到目标之前每一步接收-1的惩罚,最大 episode 长度为200步。因此,未能达到目标会产生累计奖励(或适应度分数)R=-200。episode提前终止的唯一方式是如果小车成功到达目标,此时分数为R=-(t-1),其中t是经过的步数。这个设置代表了一个奖励稀疏的环境,其中唯一的积极信号来自任务的完全成功。
再次使用基于ANN的RL控制器来解决任务,该控制器通过43参数RGRN架构的遗传编码x进行参数化,并使用累计奖励作为每个候选解x的适应度分数f。由于问题对主体参数的尺度有很强的依赖性,引入了参数缩放因子s,它将遗传参数x重新缩放到主体的ANN参数w=s·x。较大的缩放因子使变异能够引起行为的更广泛变化,从而增加参数空间中的有效探索半径。因此,搜索性能通常随着(适度地)增加s而提高。
为了确保HADES和CHARLES-D方法与CMA-ES和SimpleGA的公平比较,将所有求解器的种群大小固定为N=50,从标准差σ_init=0.1的正态分布中采样初始种群x_0