预训练的大型语言模型(LLMs)[3] [4]由于参数庞大而在部署过程中面临挑战,这促使人们采用一次性剪枝[5] [6]来移除连接同时保留功能。然而,最近的研究[7]表明,过于激进的稀疏化会导致剪枝后的性能大幅下降,因此需要微调以实现有效恢复。
现有的微调方法(例如LoRA [8])将密集参数更新引入预训练权重,这会破坏模型的稀疏性并导致灾难性遗忘,严重损害泛化能力。这需要专门为稀疏LLMs设计的保持稀疏性的微调框架。
目前关于稀疏LLMs微调的研究仍然有限,DSØT [1]是一种著名的启发式方法,它重新分配稀疏掩码以恢复特定任务的性能。然而,这种方法存在两个关键限制:首先,其无参数机制在扩展到大型微调数据集时会导致性能饱和;其次,顺序任务适应会导致掩码位置重叠,从而根本限制了持续学习的能力。
为了解决这些挑战,我们提出了群共享持续学习(GCL)——一种专为稀疏LLMs设计的保持稀疏性的持续学习框架。在针对当前任务的微调过程中,我们的方法利用从LLM推理动态中提取的依赖感知特征来设计双方面(行-列)优化参数。通过将特定任务的适应性与冻结的基础参数相乘整合,我们在不改变原始稀疏架构的情况下保持了模型稀疏性,并实现了参数高效的调整。此外,我们引入了一种块级参数共享机制,利用权重矩阵内的通道间相似性,实现了适应灵活性和计算复杂性之间的平衡。
此外,在持续任务微调的背景下,我们借鉴了生物突触机制[9]的见解,并将微调后的参数建模为特定任务的神经突触。通过分析参数调整对任务性能的影响,我们使用任务感知的正则化方法模仿生物突触可塑性动态。具体来说,我们利用泰勒展开误差导出参数重要性指标,建立了优先保留先前任务关键知识的梯度感知约束。与以往基于Hessian矩阵的方法[2]相比,我们的方法将计算复杂度从O(N^2)降低到O(N)。
我们的方法与多种训练后剪枝策略[5] [6]兼容,并支持包括非结构化[10]和N:M结构化稀疏性[11]在内的多种稀疏性格式。图1展示了在持续学习范式下微调工作流的比较。与DSØT和其他基于掩码的传统微调方法不同,GCL采用以权重为中心的微调策略——保持掩码位置的同时动态调整保留的值。这种设计理念通过参数叠加实现了跨序列任务的知识积累,而不是完全覆盖之前的微调状态。这样的架构在适应新任务的同时保持了历史知识,显示出更强的兼容性。
我们工作的关键贡献体现在三个方面:
•我们提出了一种新的参数配置策略,用于稀疏LLM的微调,利用了推理计算的内在特性。这包括为不同的权重矩阵引入行和列特定的适应参数,并结合参数共享机制,以实现计算成本和模型精度之间的最佳平衡。
•基于对突触可塑性的生物学见解,我们通过泰勒展开误差开发了梯度感知的正则化方法。这种方法将计算开销从二次方的O(N^2)降低到线性的O(N),显著提高了效率,优于传统的约束方法。
•作为一项开创性工作,我们将持续学习原理整合到了稀疏LLM的优化中。我们的实验证明了GCL在多种架构(包括LLaMA-V1和V2系列模型,参数规模从7B到70B)中的有效性,验证了该方法对大规模稀疏语言模型的广泛适用性。