DSLA：一种具有HiMix-BFP技术的能效高效双稀疏大语言模型（LLM）加速器

时间：2026年5月19日

来源：IEEE Transactions on Circuits and Systems I: Regular Papers

编辑推荐：

摘要：大型语言模型（LLMs）在语言理解和文本生成等领域取得了巨大成功。然而，它们庞大的参数规模导致了高昂的计算、存储和能源成本，这使得在资源和电力受限的边缘设备上部署变得尤为具有挑战性。块浮点数（Block Floating Point, BFP）通过将数据分组到块中，并将它

摘要：

大型语言模型（LLMs）在语言理解和文本生成等领域取得了巨大成功。然而，它们庞大的参数规模导致了高昂的计算、存储和能源成本，这使得在资源和电力受限的边缘设备上部署变得尤为具有挑战性。块浮点数（Block Floating Point, BFP）通过将数据分组到块中，并将它们对齐到每个块内的最大指数，然后转换为低位固定点数，从而减少了存储和计算开销。双向块浮点数（Bidirectional Block Floating Point, BBFP）通过将块内的数据对齐到两个不同的指数来进一步减少量化误差，从而改善了小数值的处理效果。然而，在超低位宽度下，这两种方法都因对异常值的敏感性而严重降低精度，这限制了它们实现大幅节能的能力。此外，这些方案中的指数对齐过程本质上引入了位切片稀疏性（bit-sliced sparsity），这一机会在进一步提高边缘加速器的能源效率方面尚未得到充分探索。为了解决这些挑战，我们提出了一种节能的双稀疏性LLM加速器（DSLA），该加速器支持HiMix-BFP数据格式。HiMix-BFP通过为最大值保留额外的尾数位，并根据每个块的情况自适应选择BFP或BBFP，从而提高了低位精度。DSLA架构通过利用不同位宽度下的值稀疏性和位切片稀疏性，结合低位计算单元、负载均衡机制和分层位累积数组，进一步提升了能源效率。实验结果表明，与现有最佳加速器相比，HiMix-BFP可将困惑度降低多达76%，而DSLA则实现了更高的吞吐量和更高的能源效率。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部