PGSC：一种用于非平衡热力学的梯度稀疏化通信优化准则

生物通首页 > 今日动态 > 正文

PGSC：一种用于非平衡热力学的梯度稀疏化通信优化准则

时间：2026年1月28日

来源：Information Fusion

编辑推荐：

基于热力学的动态梯度稀疏化方法提出并验证，通过构建梯度场与扩散方程的映射关系实现通信效率与模型精度的协同优化，解决静态稀疏策略导致的信息丢失和收敛不稳定问题。

张文龙|李颖|杜涵涵|魏岩|方爱清

重庆师范大学计算机与信息科学学院，中国重庆401331

摘要

梯度压缩可以减少通信开销。然而，当前的静态稀疏技术可能会干扰梯度动态，导致模型收敛不稳定和特征区分能力下降，而传输完整的梯度则会导致高昂的成本。为了解决这个问题，本文受到非平衡热力学的启发，提出了一种基于物理的梯度稀疏准则（PGSC）。具体来说，我们基于梯度幅度分布构建了一个连续场方程，推导出了训练阶段稀疏阈值的自适应衰减规则。然后根据该规则动态调整稀疏阈值，有效应对多模态特征的复杂性，并确保信息传输的一致性。我们的方法通过在梯度耗散和信息熵之间建立动态平衡机制，实现了梯度压缩和模型精度的自适应优化。这种方法在保持多尺度特征梯度结构的同时，确保了稳定的收敛速率。在包括CIFAR-10、MNIST和FLIR_ADAS_v2在内的多个公共数据集上的广泛实验表明，与TopK和量化压缩等竞争方法相比，我们的方法具有显著优势，同时还能降低通信成本。

引言

随着深度学习的快速发展，梯度通信的效率瓶颈[1]变得越来越突出，尤其是在大规模模型训练中。在分布式环境中，这一问题尤为明显，因为深度神经网络在训练过程中需要在不同设备或节点之间交换大量数据[2]。随着模型变得越来越复杂，需要更大的数据集进行训练，通信开销成为一个重大挑战。特别是在自动驾驶的多模态图像融合[3]、[4]等场景中，涉及大量数据和高维图像数据时，通信延迟更加明显。这些任务的复杂性要求模型具有高精度，这反过来又需要设备之间频繁且高效地传输梯度[5]。然而，在带宽有限的环境中（如移动设备或边缘计算[6]），传输延迟可能占整个训练时间的80%以上[7]，成为了一个主要瓶颈。

在边缘计算和联邦学习等场景中，通信开销尤为重要，因为涉及的设备通常受到计算能力和网络带宽的限制。在图像融合任务[8]、[9]中，需要结合高分辨率和多模态数据（例如红外、可见光和深度图像）来创建统一、连贯的输出，这些通信挑战更加突出[10]。这类应用中的模型依赖于详细的、准确的梯度更新，以捕捉不同模态的底层像素特征和高级语义信息[11]。传输延迟不仅会减慢收敛速度，还可能由于梯度信息不完整或过时而导致融合性能下降。例如，在医学图像融合[12]中，合并图像的准确性直接影响诊断结果，梯度通信的低效率会损害整个系统的可靠性和速度，从而影响这些系统的实际应用。

为了缓解通信瓶颈，提出了诸如TopK稀疏和标量量化[13]、[14]等梯度压缩技术。这些方法旨在通过在传输前压缩梯度来减少需要设备间传输的梯度数据量。在图像融合[15]的背景下，这些技术有助于高效传输大型梯度更新，而不牺牲模型性能。然而，这些方法仍然存在局限性，特别是在应用于复杂的图像融合任务[16]时。梯度压缩可能会导致重要特征的丢失，例如细粒度像素级细节或多尺度信息，而这些对于生成高质量融合图像至关重要[17]。信息的丢失会导致融合精度显著下降，特别是在对象检测[18]、医学图像分析[19]或遥感[20]等任务中，微妙细节至关重要。当前的局限性主要包括：（1）现有的梯度压缩方法采用固定的稀疏策略，无法适应训练过程中的动态梯度变化，导致模型收敛不稳定和优化轨迹波动；（2）将经验阈值选择与网络训练阶段分离，导致精度和通信效率之间的刚性权衡；（3）当前方法难以在复杂任务和动态环境中平衡通信效率和模型精度。此外，缺乏针对多尺度梯度特征的理论保护机制，导致高频细节和低频语义信息的同时丢失，特别是在红外-可见光图像对齐任务中尤为严重。

最近，非平衡热力学[21]和信息几何理论[22]的交叉为这个问题提供了新的视角。研究表明，梯度传播过程与Wasserstein空间中的热扩散方程密切相关：参数更新可以被视为在熵约束下的能量耗散过程，其动态特性遵循Fokker-Planck方程[23]描述的统计规律。受此启发，本文提出了PGSC，它在热力学和梯度流之间建立了严格的数学映射，以实现通信效率和模型精度的共同优化。通过动态调整稀疏阈值，PGSC准则根据梯度变化自适应地进行稀疏处理，从而在保持梯度传输一致性的同时确保通信效率，并有效提高模型精度。

总结来说，本文的贡献如下：

•

我们提出了一个连续场框架，将梯度场与扩散方程联系起来，建立了梯度耗散与信息熵守恒之间的关系，解决了动态一致性中的中断问题，确保了训练过程中的稳定收敛。

•

引入了一种基于相空间轨迹的新型自适应稀疏阈值衰减机制，能够在训练阶段和网络深度上动态调整压缩率。该机制有效解决了静态稀疏方法的局限性，并确保了信息传输的一致性。

•

通过为梯度幅度分布构建连续场方程，我们为低带宽场景下的梯度压缩提供了理论基础，显著降低了通信开销，同时保持了高模型精度。

•

在多个公共数据集（例如CIFAR-10、MNIST、FLIR_ADAS_v2、MSRS和VT5000）上进行了广泛的实验，涉及图像分类、图像融合和显著对象检测，证明了我们方法的优越性。

本文的其余部分如下。第2节简要介绍了在多模态图像融合等复杂任务中梯度压缩算法的相关工作。第3节详细介绍了我们的PGSC。第4节进行了比较和分析实验。第5节对全文进行了总结，并展望了未来。

近年来，将物理原理集成到神经网络优化中受到了越来越多的关注，尤其是在研究人员寻求提高多模态图像融合等复杂任务中的训练稳定性和效率时。这些任务本质上涉及异构数据源[24]，例如需要融合的红外和可见光图像以及深度信息，同时需要保持细粒度细节和跨模态的语义一致性。

动机

如今，传统的梯度压缩技术（如使用“温度/熵退火”的技术）通常采用预定的衰减计划（例如线性或指数函数）进行静态稀疏。这些方法旨在减少随机性并随时间平滑损失曲线，从而降低分布式深度学习系统中的通信开销。然而，这种静态方法存在显著局限性。

实验配置

在实验中，使用了四个数据集和不同的方法来评估各种压缩技术的性能和模型架构的适用性。CIFAR-10数据集[36]是一个包含60,000张图像的图像分类数据集，分为10个类别，每个类别有6,000张图像。该数据集分为50,000张训练图像和10,000张测试图像，每张图像属于以下10个类别之一。CIFAR-10数据集的挑战在于其