通过统一编译接口共同探索硬件加速与张量程序的优化方法

时间:2026年5月25日
来源:ACM Transactions on Design Automation of Electronic Systems

编辑推荐:

摘要 AI摘要

广告
   X   

要查看此AI生成的摘要,您必须具有高级访问权限。

摘要

摘要

与通用处理器相比,领域特定的硬件加速器在速度和能效方面具有巨大潜力。然而,这些加速器的设计和开发过程通常需要大量的手动工作,尤其是在硬件设计和高性能张量程序的开发方面。已经进行了大量研究来优化这些方面,但这导致了可能性的增加,同时也带来了相当大的挑战。为了解决这一挑战,我们提出了BACO,这是一个端到端的单循环搜索框架。BACO的目标是提供一个统一的编译接口,以便于硬件和软件的协同探索。BACO的关键元素是其多层次抽象,它不仅精确地定义了自定义硬件指令和配置状态的行为,还通过“块”的概念实现了计算和数据移动的细粒度优化。基于这种抽象,我们开发了一种编程语言和编译器,该编译器结合了可微分的性能模型,以自动探索各种高性能设计点。此外,BACO采用了一种高效的策略来估计重要性,从而可以同时优化多个层次,以提高端到端的性能。这种方法促进了快速协同探索,同时减少了开发工作量。实验结果表明,BACO在性能上大幅超过了现有的最先进搜索解决方案和手动调优版本。此外,我们计划将整个代码库开源。

AI摘要

AI生成摘要(实验性)

此摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在帮助发现、帮助读者评估相关性,并协助来自相关研究领域的读者理解本文内容。它旨在补充作者提供的摘要,后者仍然是论文的官方摘要。完整文章是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进和未来版本的生成。

要查看此AI生成的通俗语言摘要,您必须具有高级访问权限。

生物通微信公众号
微信
新浪微博


生物通 版权所有