用于端到端协作推理的多模态模型分割策略

时间:2026年2月5日
来源:Journal of Parallel and Distributed Computing

编辑推荐:

本文提出一种结合特征敏感压缩与强化学习的边缘协作推理框架,通过动态模型分割和资源分配优化,显著降低延迟和能耗,实验表明延迟减少65.4%,能耗节省77.6%。

广告
   X   

霍东坤|周英婷|郝一雪|胡龙|莫一军|陈敏|伊兹托克·胡马尔
华中科技大学计算机科学与技术学院,武汉,中国

摘要

人工智能(AI)的进步显著推动了智能模型的应用,使用深度神经网络模型进行设备推理变得越来越普遍。然而,资源受限的设备难以处理神经网络的巨大计算负载。因此,将模型分割并在边缘云和终端上进行协同计算可以加速边缘的实时推理。现有研究忽略了动态边缘网络的资源分配和协同决策问题,而高维特征会导致传输延迟。为了解决这个问题,我们提出了一种基于特征重要性的压缩算法,通过差异化压缩来减少通信负载,同时保持推理精度。接着,我们设计了一种用于资源分配的强化学习方法和一种基于上下文强盗算法的在线模型分割算法,利用压缩特征在动态环境中做出自适应决策。最后,我们在不同类型的网络上进行了大量实验,结果表明我们的方法可以将推理延迟降低多达65.4%,并节省高达77.6%的能源消耗。

引言

随着物联网(IoT)技术的快速发展,设备互联性变得越来越普遍。到2025年,全球连接设备的数量将达到754亿台。这些设备促进了虚拟/增强现实、自动驾驶和云游戏等智能应用的下一波发展。深度神经网络(DNN)作为AI的关键技术,为各种智能应用提供了解决方案。然而,依赖DNN推理的新智能应用通常资源密集且时间敏感,给资源受限的设备带来了巨大的计算负担。传统的云计算通过将数据或任务卸载到云服务器上来进行DNN推理。然而,这种方法可能会增加网络负载和传输延迟,并带来数据隐私泄露的风险。现在的挑战是使资源受限的设备能够高效地提供优质的服务。
移动边缘计算(MEC)通过将部分计算资源下沉到网络边缘,显著加快了推理过程,实现了更接近用户设备的存储和计算[1],[2]。嵌入式设备增强的计算能力使得某些IoT设备能够包含AI加速组件,进一步减少了DNN推理延迟。为了高效利用边缘能力进行协同推理,通常采用DNN模型分割的方法在设备和边缘云上同时运行任务。图1展示了通过模型分割进行边缘协同推理的架构。虽然在设备上运行初始层会带来一些时间和能源开销,但策略性地分割模型可以减少向边缘云的数据传输,从而降低传输延迟和能源使用,从而在延迟和能源效率方面获得整体提升。将某些层计算卸载到边缘云可以优化网络计算资源的使用,减轻设备和骨干网络的工作负载。此外,模型分割后,只传输中间特征数据,以防止原始数据离开用户设备时发生隐私泄露的风险。
神经网络层之间存在重要的中间特征。错误地分割模型可能会导致传输延迟显著增加。关于模型分割的研究往往忽略了特征压缩。为了提高性能优化并减轻终端设备的计算和通信负担,将模型分割与特征压缩相结合提供了一种整体方法。当前的模型分割方法依赖于离线分析来评估网络设备性能以确定最佳分割点,难以适应高度动态的MEC网络。因此,需要一种在线算法来适应不断变化的环境。此外,由于用户设备资源的不同和生成的任务的多样性,统一的分割方法难以找到最佳解决方案,需要为每个任务单独决策。此外,当前关于模型分割和资源分配的研究往往过于简化了实际情况,忽略了这两个因素之间的复杂关系。因此,联合优化模型分割和资源分配决策变得至关重要。尽管如此,实施联合优化策略面临解决方案空间庞大和收敛困难等挑战。因此,创建一种高效的模型分割和资源分配协同优化方法具有实际价值。
本文研究了深度神经网络边缘协同推理问题的模型分割技术。首先,我们开发了一种基于特征重要性的压缩算法,以应对模型中间层的高维特性和边缘网络的动态特性。随后,我们深入探讨了一种自适应的边缘资源分配策略,以解决多用户和多任务环境中的资源竞争问题。本研究的主要内容包括:
  • 我们提出了一种基于特征重要性的压缩算法。根据特征的重要性采用定制的压缩方法,显著提高了压缩效果并减轻了通信负载。
  • 一种在线模型分割算法利用上下文强盗学习,在动态边缘网络环境中基于压缩特征做出自适应分割决策。
  • 我们提出了一种基于最近优先级经验选择的用户级资源分配的双延迟深度确定性策略梯度算法。
  • 为了评估该算法,我们进行了大量实验。实验结果表明,我们的方法可以将推理延迟降低多达65.4%,并节省高达77.6%的能源消耗。
  • 本文的其余部分组织如下:第2节回顾相关工作。第3节介绍系统模型和问题表述。第4节提出了用于自适应分配边缘资源的DNN分割算法的设计细节。第5节提供了实验结果和性能分析。最后,第6节给出了结论。

    相关工作

    相关工作

    在本节中,我们介绍了模型分割、性能优化、特征压缩和协同推理方面的相关研究。

    系统概述

    图2展示了多用户的协同推理框架。在这种多用户、多任务的单一边缘云设置中,用户设备通过无线方式连接到基站,基站通过光纤网络与边缘服务器相连。每个用户生成各种推理任务,而边缘服务器持续监控用户指标,如剩余任务、数据传输量和云计算资源。这些实时数据指导资源分配决策

    基于特征敏感性的压缩算法

    深度神经网络可以逐层提取中间特征,但特征压缩对于优化通信开销和减少计算工作负载至关重要。低熵特征张量的压缩在技术上是可行的,并且在实际应用中更有可能实现最佳效果。
    本节介绍了一种基于特征敏感性的压缩算法,如图3所示,该算法使用可解释AI(XAI)技术来评估特征的重要性并执行

    性能评估

    为了验证本章提出的基于特征重要性的在线模型分割算法的有效性,本节使用四种广泛使用的典型深度神经网络(AlexNet、VGG16、ResNet50和MobileNetV1)作为示例来验证算法的可行性。这四种模型的参数见表1。

    结论

    在本文中,我们提出了一个实现高效协同推理的新框架。首先,我们提出了一种基于特征重要性的压缩方法来压缩DNN的中间特征。然后,我们定义了多用户场景下的系统服务质量最大化问题,并提出了一种强化学习算法来解决资源分配问题,以及一种基于上下文的多臂强盗算法来解决DNN分割问题。我们进行了大量实验

    CRediT作者贡献声明

    霍东坤:撰写——原始草稿。周英婷:撰写——原始草稿。郝一雪:研究、方法论、概念化。胡龙:概念化。莫一军:概念化。陈敏:监督。伊兹托克·胡马尔:概念化。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有