通过混合动态剪枝实现高效的Transformer推理

时间:2025年11月28日
来源:IEEE Transactions on Artificial Intelligence

编辑推荐:

Transformer模型部署面临计算与内存瓶颈,本文提出混合动态pruning(HDP)技术及配套加速器HDPA,通过运行时整数块pruning、头pruning和注意力近似三阶段优化,在边缘设备与服务器端实现481倍(CPU)和381倍(GPU)的注意力层加速,较SOTA提升1.26-2.08倍吞吐量,18-5.1倍MAC效率,1.1-5.1倍能效比。

广告
   X   

影响声明:
变压器模型彻底改变了自然语言处理和计算机视觉领域,然而它们对计算资源和内存的高需求限制了其在资源有限的设备上的部署...显示更多

摘要:

在深度学习领域,变压器模型具有重要意义,已经在从语言理解到图像识别等多个方面取得了显著进展,应用范围非常广泛。尽管取得了这些成功,但由于计算强度高和内存需求大,这些模型在实时应用中的部署,尤其是在边缘设备上,仍然面临诸多挑战。为了克服这些挑战,我们提出了一种新颖的混合动态剪枝(HDP)技术,这是一种高效的算法-架构协同设计方法,通过利用头部稀疏性、块稀疏性和近似计算来减少注意力计算和内存访问量。鉴于注意力分数和注意力头部中存在大量冗余,我们提出了一种基于整数的块剪枝方法,在运行时剪除注意力矩阵中不重要的部分;同时,我们还提出了一种基于整数的头部剪枝方法,在运行早期检测并剪除不重要的头部。此外,我们还提出了一种近似计算方法来降低注意力计算量。为了以更低的延迟高效支持这些方法,我们设计了HDP加速器(HDPA)作为协处理器架构,提供了两种配置——HDPA-edge和HDPA-server——以满足移动设备和服务器平台的需求。通过对不同变压器模型和基准测试的大量实验表明,与Intel i7-1185G7 CPU和NVIDIA T4 GPU相比,HDPA-server在注意力层计算方面分别实现了481381的速度提升。与其他最先进的(SOTA)加速器相比,HDPA的吞吐量提高了1.262.08,MAC效率提高了1.3,并且在相同计算负载下的能效提高了1.15.1

生物通微信公众号
微信
新浪微博


生物通 版权所有