摘要:
在深度学习领域,变压器模型具有重要意义,已经在从语言理解到图像识别等多个方面取得了显著进展,应用范围非常广泛。尽管取得了这些成功,但由于计算强度高和内存需求大,这些模型在实时应用中的部署,尤其是在边缘设备上,仍然面临诸多挑战。为了克服这些挑战,我们提出了一种新颖的混合动态剪枝(HDP)技术,这是一种高效的算法-架构协同设计方法,通过利用头部稀疏性、块稀疏性和近似计算来减少注意力计算和内存访问量。鉴于注意力分数和注意力头部中存在大量冗余,我们提出了一种基于整数的块剪枝方法,在运行时剪除注意力矩阵中不重要的部分;同时,我们还提出了一种基于整数的头部剪枝方法,在运行早期检测并剪除不重要的头部。此外,我们还提出了一种近似计算方法来降低注意力计算量。为了以更低的延迟高效支持这些方法,我们设计了HDP加速器(HDPA)作为协处理器架构,提供了两种配置——HDPA-edge和HDPA-server——以满足移动设备和服务器平台的需求。通过对不同变压器模型和基准测试的大量实验表明,与Intel i7-1185G7 CPU和NVIDIA T4 GPU相比,HDPA-server在注意力层计算方面分别实现了481倍和381倍的速度提升。与其他最先进的(SOTA)加速器相比,HDPA的吞吐量提高了1.26倍到2.08倍,MAC效率提高了1.3倍,并且在相同计算负载下的能效提高了1.1倍到5.1倍。