通过混合动态剪枝实现高效的Transformer推理

时间：2025年11月28日

来源：IEEE Transactions on Artificial Intelligence

编辑推荐：

Transformer模型部署面临计算与内存瓶颈，本文提出混合动态pruning（HDP）技术及配套加速器HDPA，通过运行时整数块pruning、头pruning和注意力近似三阶段优化，在边缘设备与服务器端实现481倍（CPU）和381倍（GPU）的注意力层加速，较SOTA提升1.26-2.08倍吞吐量，18-5.1倍MAC效率，1.1-5.1倍能效比。

影响声明：

变压器模型彻底改变了自然语言处理和计算机视觉领域，然而它们对计算资源和内存的高需求限制了其在资源有限的设备上的部署...显示更多

摘要：

在深度学习领域，变压器模型具有重要意义，已经在从语言理解到图像识别等多个方面取得了显著进展，应用范围非常广泛。尽管取得了这些成功，但由于计算强度高和内存需求大，这些模型在实时应用中的部署，尤其是在边缘设备上，仍然面临诸多挑战。为了克服这些挑战，我们提出了一种新颖的混合动态剪枝（HDP）技术，这是一种高效的算法-架构协同设计方法，通过利用头部稀疏性、块稀疏性和近似计算来减少注意力计算和内存访问量。鉴于注意力分数和注意力头部中存在大量冗余，我们提出了一种基于整数的块剪枝方法，在运行时剪除注意力矩阵中不重要的部分；同时，我们还提出了一种基于整数的头部剪枝方法，在运行早期检测并剪除不重要的头部。此外，我们还提出了一种近似计算方法来降低注意力计算量。为了以更低的延迟高效支持这些方法，我们设计了HDP加速器（HDPA）作为协处理器架构，提供了两种配置——HDPA-edge和HDPA-server——以满足移动设备和服务器平台的需求。通过对不同变压器模型和基准测试的大量实验表明，与Intel i7-1185G7 CPU和NVIDIA T4 GPU相比，HDPA-server在注意力层计算方面分别实现了481倍和381倍的速度提升。与其他最先进的（SOTA）加速器相比，HDPA的吞吐量提高了1.26倍到2.08倍，MAC效率提高了1.3倍，并且在相同计算负载下的能效提高了1.1倍到5.1倍。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部