随着深度学习的快速发展,梯度通信的效率瓶颈[1]变得越来越突出,尤其是在大规模模型训练中。在分布式环境中,这一问题尤为明显,因为深度神经网络在训练过程中需要在不同设备或节点之间交换大量数据[2]。随着模型变得越来越复杂,需要更大的数据集进行训练,通信开销成为一个重大挑战。特别是在自动驾驶的多模态图像融合[3]、[4]等场景中,涉及大量数据和高维图像数据时,通信延迟更加明显。这些任务的复杂性要求模型具有高精度,这反过来又需要设备之间频繁且高效地传输梯度[5]。然而,在带宽有限的环境中(如移动设备或边缘计算[6]),传输延迟可能占整个训练时间的80%以上[7],成为了一个主要瓶颈。
在边缘计算和联邦学习等场景中,通信开销尤为重要,因为涉及的设备通常受到计算能力和网络带宽的限制。在图像融合任务[8]、[9]中,需要结合高分辨率和多模态数据(例如红外、可见光和深度图像)来创建统一、连贯的输出,这些通信挑战更加突出[10]。这类应用中的模型依赖于详细的、准确的梯度更新,以捕捉不同模态的底层像素特征和高级语义信息[11]。传输延迟不仅会减慢收敛速度,还可能由于梯度信息不完整或过时而导致融合性能下降。例如,在医学图像融合[12]中,合并图像的准确性直接影响诊断结果,梯度通信的低效率会损害整个系统的可靠性和速度,从而影响这些系统的实际应用。
为了缓解通信瓶颈,提出了诸如TopK稀疏和标量量化[13]、[14]等梯度压缩技术。这些方法旨在通过在传输前压缩梯度来减少需要设备间传输的梯度数据量。在图像融合[15]的背景下,这些技术有助于高效传输大型梯度更新,而不牺牲模型性能。然而,这些方法仍然存在局限性,特别是在应用于复杂的图像融合任务[16]时。梯度压缩可能会导致重要特征的丢失,例如细粒度像素级细节或多尺度信息,而这些对于生成高质量融合图像至关重要[17]。信息的丢失会导致融合精度显著下降,特别是在对象检测[18]、医学图像分析[19]或遥感[20]等任务中,微妙细节至关重要。当前的局限性主要包括:(1)现有的梯度压缩方法采用固定的稀疏策略,无法适应训练过程中的动态梯度变化,导致模型收敛不稳定和优化轨迹波动;(2)将经验阈值选择与网络训练阶段分离,导致精度和通信效率之间的刚性权衡;(3)当前方法难以在复杂任务和动态环境中平衡通信效率和模型精度。此外,缺乏针对多尺度梯度特征的理论保护机制,导致高频细节和低频语义信息的同时丢失,特别是在红外-可见光图像对齐任务中尤为严重。
最近,非平衡热力学[21]和信息几何理论[22]的交叉为这个问题提供了新的视角。研究表明,梯度传播过程与Wasserstein空间中的热扩散方程密切相关:参数更新可以被视为在熵约束下的能量耗散过程,其动态特性遵循Fokker-Planck方程[23]描述的统计规律。受此启发,本文提出了PGSC,它在热力学和梯度流之间建立了严格的数学映射,以实现通信效率和模型精度的共同优化。通过动态调整稀疏阈值,PGSC准则根据梯度变化自适应地进行稀疏处理,从而在保持梯度传输一致性的同时确保通信效率,并有效提高模型精度。
总结来说,本文的贡献如下:
•我们提出了一个连续场框架,将梯度场与扩散方程联系起来,建立了梯度耗散与信息熵守恒之间的关系,解决了动态一致性中的中断问题,确保了训练过程中的稳定收敛。
•引入了一种基于相空间轨迹的新型自适应稀疏阈值衰减机制,能够在训练阶段和网络深度上动态调整压缩率。该机制有效解决了静态稀疏方法的局限性,并确保了信息传输的一致性。
•通过为梯度幅度分布构建连续场方程,我们为低带宽场景下的梯度压缩提供了理论基础,显著降低了通信开销,同时保持了高模型精度。
•在多个公共数据集(例如CIFAR-10、MNIST、FLIR_ADAS_v2、MSRS和VT5000)上进行了广泛的实验,涉及图像分类、图像融合和显著对象检测,证明了我们方法的优越性。
本文的其余部分如下。第2节简要介绍了在多模态图像融合等复杂任务中梯度压缩算法的相关工作。第3节详细介绍了我们的PGSC。第4节进行了比较和分析实验。第5节对全文进行了总结,并展望了未来。