摘要:
大型语言模型(LLMs)在语言理解和文本生成等领域取得了巨大成功。然而,它们庞大的参数规模导致了高昂的计算、存储和能源成本,这使得在资源和电力受限的边缘设备上部署变得尤为具有挑战性。块浮点数(Block Floating Point, BFP)通过将数据分组到块中,并将它们对齐到每个块内的最大指数,然后转换为低位固定点数,从而减少了存储和计算开销。双向块浮点数(Bidirectional Block Floating Point, BBFP)通过将块内的数据对齐到两个不同的指数来进一步减少量化误差,从而改善了小数值的处理效果。然而,在超低位宽度下,这两种方法都因对异常值的敏感性而严重降低精度,这限制了它们实现大幅节能的能力。此外,这些方案中的指数对齐过程本质上引入了位切片稀疏性(bit-sliced sparsity),这一机会在进一步提高边缘加速器的能源效率方面尚未得到充分探索。为了解决这些挑战,我们提出了一种节能的双稀疏性LLM加速器(DSLA),该加速器支持HiMix-BFP数据格式。HiMix-BFP通过为最大值保留额外的尾数位,并根据每个块的情况自适应选择BFP或BBFP,从而提高了低位精度。DSLA架构通过利用不同位宽度下的值稀疏性和位切片稀疏性,结合低位计算单元、负载均衡机制和分层位累积数组,进一步提升了能源效率。实验结果表明,与现有最佳加速器相比,HiMix-BFP可将困惑度降低多达76%,而DSLA则实现了更高的吞吐量和更高的能源效率。