GCL：适用于稀疏大型语言模型（LLMs）的群体共享持续学习微调方法

时间：2026年2月3日

来源：Neurocomputing

编辑推荐：

针对稀疏大语言模型在持续学习中的性能退化与灾难性遗忘问题，提出GCL框架。该框架通过依赖感知的行-列优化参数和组共享策略实现权重训练而非稀疏掩码调整，结合生物启发的突触可塑性机制，将计算复杂度从O(N²)降至O(N)。实验表明GCL在7B到70B参数规模的LLaMA模型上显著优于基线方法，有效平衡性能与效率并兼容多种稀疏结构。

王彦哲|尹宝群

中国科学技术大学，金寨路，合肥，230026，安徽，中国

摘要

大型语言模型（LLMs）在多种任务中表现出色，但由于其庞大的规模，在部署过程中面临挑战。一次性剪枝通过引入参数稀疏性来降低计算成本，但剪枝后的模型通常会遭受性能下降，需要进一步微调。现有的针对稀疏模型的微调方法（如DSØT [1]）使用启发式算法来更新稀疏性掩码。这些方法采用近似策略而无需训练，可能导致次优结果。此外，在持续的任务微调过程中，掩码更新的累积可能会导致灾难性遗忘，因为新的更新会覆盖之前的配置。为了解决这些问题，我们提出了群共享持续学习（GCL）框架，这是一种专为稀疏LLMs设计的微调框架。GCL通过训练来更新模型权重，而不是修改稀疏性掩码，从而在保持稀疏性的同时避免次优解。该框架利用依赖感知的行-列优化参数和组间共享策略，在性能和效率之间取得平衡。此外，为了减轻灾难性遗忘，我们将参数正则化建模为受生物启发的突触可塑性，并通过泰勒展开误差导出梯度感知的约束。与其他基于Hessian矩阵的方法[2]相比，我们的方法将计算复杂度从O(N^2)降低到O(N)。GCL兼容多种稀疏性配置，包括非结构化和N:M格式，并能无缝集成现有的剪枝技术。在LLaMA-V1/V2模型上的实验评估表明，GCL在性能恢复和跨任务稳定性方面优于以往的方法，同时保持了模型稀疏性。

引言

预训练的大型语言模型（LLMs）[3] [4]由于参数庞大而在部署过程中面临挑战，这促使人们采用一次性剪枝[5] [6]来移除连接同时保留功能。然而，最近的研究[7]表明，过于激进的稀疏化会导致剪枝后的性能大幅下降，因此需要微调以实现有效恢复。

现有的微调方法（例如LoRA [8]）将密集参数更新引入预训练权重，这会破坏模型的稀疏性并导致灾难性遗忘，严重损害泛化能力。这需要专门为稀疏LLMs设计的保持稀疏性的微调框架。

目前关于稀疏LLMs微调的研究仍然有限，DSØT [1]是一种著名的启发式方法，它重新分配稀疏掩码以恢复特定任务的性能。然而，这种方法存在两个关键限制：首先，其无参数机制在扩展到大型微调数据集时会导致性能饱和；其次，顺序任务适应会导致掩码位置重叠，从而根本限制了持续学习的能力。

为了解决这些挑战，我们提出了群共享持续学习（GCL）——一种专为稀疏LLMs设计的保持稀疏性的持续学习框架。在针对当前任务的微调过程中，我们的方法利用从LLM推理动态中提取的依赖感知特征来设计双方面（行-列）优化参数。通过将特定任务的适应性与冻结的基础参数相乘整合，我们在不改变原始稀疏架构的情况下保持了模型稀疏性，并实现了参数高效的调整。此外，我们引入了一种块级参数共享机制，利用权重矩阵内的通道间相似性，实现了适应灵活性和计算复杂性之间的平衡。

此外，在持续任务微调的背景下，我们借鉴了生物突触机制[9]的见解，并将微调后的参数建模为特定任务的神经突触。通过分析参数调整对任务性能的影响，我们使用任务感知的正则化方法模仿生物突触可塑性动态。具体来说，我们利用泰勒展开误差导出参数重要性指标，建立了优先保留先前任务关键知识的梯度感知约束。与以往基于Hessian矩阵的方法[2]相比，我们的方法将计算复杂度从O(N^2)降低到O(N)。

我们的方法与多种训练后剪枝策略[5] [6]兼容，并支持包括非结构化[10]和N:M结构化稀疏性[11]在内的多种稀疏性格式。图1展示了在持续学习范式下微调工作流的比较。与DSØT和其他基于掩码的传统微调方法不同，GCL采用以权重为中心的微调策略——保持掩码位置的同时动态调整保留的值。这种设计理念通过参数叠加实现了跨序列任务的知识积累，而不是完全覆盖之前的微调状态。这样的架构在适应新任务的同时保持了历史知识，显示出更强的兼容性。

我们工作的关键贡献体现在三个方面：

•

我们提出了一种新的参数配置策略，用于稀疏LLM的微调，利用了推理计算的内在特性。这包括为不同的权重矩阵引入行和列特定的适应参数，并结合参数共享机制，以实现计算成本和模型精度之间的最佳平衡。

•

基于对突触可塑性的生物学见解，我们通过泰勒展开误差开发了梯度感知的正则化方法。这种方法将计算开销从二次方的O(N^2)降低到线性的O(N)，显著提高了效率，优于传统的约束方法。

•

作为一项开创性工作，我们将持续学习原理整合到了稀疏LLM的优化中。我们的实验证明了GCL在多种架构（包括LLaMA-V1和V2系列模型，参数规模从7B到70B）中的有效性，验证了该方法对大规模稀疏语言模型的广泛适用性。

部分片段

大型语言模型中的稀疏性

深度学习压缩方法[12] [13]大致分为结构化和非结构化两类。非结构化剪枝[14]通过消除单个权重元素来实现细粒度稀疏性，在模型压缩和精度保持方面表现出优于结构化方法的性能。随着压缩技术的进步，N:M稀疏模式[10] [11]已成为一种重要的压缩范式。

方法

在本节中，我们介绍了群共享持续学习（GCL）框架，该框架在保持模型稀疏性的同时支持顺序任务适应。第3.1节介绍了一种轻量级的参数化策略，使用共享的适应参数来保持优化过程中的结构完整性。第3.2节中的梯度感知正则化机制结合了特定任务的约束，以减轻灾难性遗忘。最后，整体

实验

本节展示了我们在多个维度上的实验结果。第4.1节概述了设置，包括数据集、指标和训练程序。第4.2节评估了语言建模性能，强调了优势和对基准的比较。第4.3节测试了持续学习能力，重点关注适应性和知识保留。第4.4节分析了零样本泛化，而第4.5节提供了消融研究以分离各个组件的贡献。

结论

本文介绍了一种名为群共享持续学习（GCL）的新框架，用于稀疏大型语言模型（LLMs）的微调。与在训练过程中修改稀疏性掩码的传统方法不同，GCL在通过特定任务优化更新模型权重的同时保持稀疏性。通过结合依赖感知的参数更新和组间共享，GCL在性能和效率之间取得了平衡。受生物启发的突触可塑性机制进一步将计算复杂度降低到