基于分层多智能体深度强化学习的无人机动态集群重构与能效功率分配研究

时间：2025年12月29日

来源：IEEE Transactions on Cognitive Communications and Networking

编辑推荐：

本文针对无人机(UAV)在无线干扰网络中的高可靠性移动性管理难题，提出了一种基于分层多智能体深度强化学习(H-MADRL)的动态集群重构与功率分配方案。研究通过边缘云高层智能体优化接入点(AP)聚类策略，分布式AP智能体实现功率控制，结合动作-观测转换机制提升学习效率。仿真表明该方法在满足超可靠低时延通信(URLLC)要求的同时，显著降低了功耗和集群重构频率，且扩展性优于集中式算法。

在无人机(UAV)应用日益普及的今天，如何确保其在高速移动过程中保持稳定可靠的通信连接，成为无线网络领域的一大挑战。传统以小区为中心的无线网络中，用户通常只与单个接入点(AP)关联，移动性管理主要通过小区间的切换来实现。然而，对于像无人机这样的高移动性用户，这种模式存在明显局限：小区边缘的频繁切换容易导致服务中断，并增加信令开销。相比之下，以用户为中心（或称无小区）的架构将移动性与 rigid 的小区边界解耦。在这种架构下，每个用户不再是连接到一个单一的AP，而是动态地由一个地理上分布的AP集群使用相同的时频资源来服务。这种协作传输可以通过诸如协调多点(CoMP)、云无线接入网(C-RAN)和无小区网络等技术来实现。这种多连接性范式为实现无缝连接和鲁棒通信提供了可能，特别适用于具有高度动态三维移动模式的无人机。然而，这也给移动性管理带来了新的挑战。首先，网络必须为每个用户确定最优的服务AP集群，以满足动态条件下严格的服务质量(QoS)要求，例如可靠性。在无人机场景中，由于高速三维移动、以及与多个（通常是遥远的）AP之间高度依赖的信道条件，使得集群决策变得更加复杂。其次，虽然涉及多个AP可以增强可靠性，但由于并发传输，也增加了功耗。因此，在不影响通信质量的前提下最小化总传输功率成为一个关键的设计目标。第三，随着用户的移动，其服务集群必须相应更新。然而，频繁或不必要的重新配置会导致控制开销和延迟增加。因此，网络应在确保用户QoS不受影响的同时，尽量减少重新配置的次数。

此外，为多连接无线干扰网络中的动态集群开发高效的功率分配方案也是一个重大挑战。这需要在严格的QoS约束下，持续适应不断变化的网络条件和集群配置，同时管理干扰。虽然优化理论、匹配理论、博弈论等不同方法已被探索用于解决不同网络中的动态集群和资源分配挑战，但这些传统技术通常受到几个问题的困扰。例如，它们依赖于拥有关于网络动态的完整实时信息，这在信道条件快速波动的无线场景中是不现实的，特别是对于与地面AP具有概率性视距(LoS)条件的无人机通信。此外，这些方法计算密集，并且难以扩展，其复杂性随着网络规模的增长呈指数级增加。

机器学习(ML)，特别是深度强化学习(DRL)，因其能够通过与不可预测的无线环境交互来管理集群重新配置和资源分配，被认为是一种更具适应性和弹性的方法。通过环境学习，DRL利用通信网络的独特特性来学习期望的策略。虽然集中式DRL方法可以有效地解决集群重新配置和资源分配问题，但随着网络规模的扩大，它面临着可扩展性问题。另一方面，多智能体深度强化学习(MADRL)通过实现分布式决策来解决可扩展性问题。然而，尽管具有可扩展性优势，但当智能体只有部分观测值时，MADRL可能会面临性能限制。虽然价值分解方法实现了去中心化合作，但它们通常是为具有共享目标的完全合作任务而设计的。相比之下，我们的问题涉及异构且紧密耦合的目标，例如最优集群和功率控制，这更适合通过分层框架来解决，其中集群在边缘云进行协调，而功率控制则在AP智能体之间分布式进行。因此，这两种方法各具优势与挑战，需要权衡。这促使我们使用分层MADRL，它将本地决策与高层协调结构相结合，为可扩展性和性能之间的权衡提供了一个潜在的解决方案。

发表在《IEEE Transactions on Cognitive Communications and Networking》上的论文《Hierarchical Multi-Agent DRL Based Dynamic Cluster Reconfiguration for UAV Mobility Management》针对上述挑战，提出了一个创新的解决方案。该研究旨在满足苛刻的可靠性需求，最小化联合功耗，并减少集群重新配置的频率。为了实现这些目标，研究人员提出了一个专门为动态集群和功率分配量身定制的分层多智能体深度强化学习(H-MADRL)框架。该框架的核心在于将决策过程去中心化，将职责分配给网络的不同层级，而不是依赖于单一的决策智能体。为了进一步提高分层MADRL的学习效率并为低层智能体提供全局环境信息以做出更好的决策，研究人员提出了一种新颖的动作-观测转换驱动学习算法。该机制允许高层智能体的动作作为低层智能体局部观测空间的一部分，使得低层智能体能够共享关于集群策略的部分信息，从而更有效地分配功率。

为了开展这项研究，作者团队主要运用了几个关键技术方法。首先，他们构建了一个基于部分可观测马尔可夫决策过程(POMDP)的系统模型，将动态集群重构和功率分配问题形式化。其次，设计了分层多智能体近端策略优化(H-MAPPO)算法作为核心学习框架，其中高层智能体（位于边缘云）负责集群决策，低层智能体（位于各AP）负责功率分配决策。第三，引入了动作-观测转换机制，将高层智能体的决策输出纳入低层智能体的观测空间，以改善层级间的协调和学习效率。第四，利用基于随机微分方程的3D无人机移动性模型和符合3GPP标准的信道模型（包含高度相关的LoS/NLoS条件和衰落）来模拟动态无线环境。最后，通过Ray的RLlib库实现了分布式训练和仿真，以评估算法性能并与基线方法进行比较。研究考虑了在开放无线接入网(O-RAN)架构下的下行链路通信场景。

系统模型与问题表述

研究考虑了一个O-RAN架构下的下行链路通信场景，其中K个固定位置的地面AP通过低延迟光前传/回传链路连接到具有虚拟化和处理能力的边缘云。N个空中用户(AU)，即无人机，基于随机的3D移动性模型在服务区域内移动。每个AU由动态形成的AP集群服务。集群策略Γ定义了每个AU的服务AP子集。接收信号与干扰加噪声比(SINR)的计算考虑了来自服务集群AP的期望信号功率以及其他AP对同一资源上其他用户造成的干扰功率。研究特别关注了有限块长(FBL)编码下的超可靠低时延通信(URLLC)场景，其中解码错误概率(DEP)非零，可靠性受到块长n和信息比特数b_i的影响。通过将最大DEP约束转化为SINR约束γ_th，并基于瑞利衰落模型推导了SINR中断概率O_i的表达式。最终，研究将问题表述为一个多目标优化问题，旨在最大化集群稳定性指标和能效（成功传输比特数与总功耗的比值），同时满足DEP、发射功率、集群非空和SINR阈值等约束条件。为了应对大规模网络下的可扩展性挑战，该联合问题被分解为两个子问题：最优集群重新配置子问题和给定集群策略下的最优功率分配子问题。

H-MADRL用于动态集群与功率分配

为了解决动态集群和功率分配问题，研究采用了分层多智能体深度强化学习框架。该框架将决策问题建模为POMDP，并基于问题分解，将高层（边缘云）集群决策和低层（分布式AP）功率分配决策分离。

•
高层：动态集群重构：高层智能体的观测空间包括AU的位置、AP的用户负载、信道条件和当前集群状态。其动作是为每个AU分配服务集群。奖励函数侧重于鼓励集群配置的稳定性（减少重新配置次数）和减少经历SINR中断的AU数量。
•
低层：多智能体最优功率分配：每个AP作为一个独立的低层智能体。其观测空间包括本地信息（如分配给该AP的用户及其位置、LoS条件）以及从高层智能体接收到的集群分配信息。其动作是为其服务的每个AU确定最优发射功率。奖励函数旨在鼓励使用最小总发射功率，并惩罚违反DEP可靠性约束的情况。

研究提出了具体的H-MAPPO算法。高层使用单一智能体的近端策略优化(PPO)算法，低层AP使用多智能体近端策略优化(MAPPO)算法。关键创新在于动作-观测转换驱动机制，即将高层智能体的聚类动作作为低层智能体观测空间的一部分，从而改善层级间的协调和低层决策的质量。

数值评估

仿真结果验证了所提H-MAPPO算法的有效性。

•
学习效率与复杂性：H-MAPPO比非分层分布式MAPPO基线收敛更快，获得的累积奖励更高（约15%）。这得益于任务解耦带来的搜索空间减小和信用分配改善。在计算复杂度方面，H-MAPPO显示出良好的可扩展性。当AP数量从16个加倍到32个时，H-MAPPO每轮训练时间仅增加约10%，而集中式MSAC方法增加90%，分布式MAPPO增加70%。
•
可靠性性能：在解码错误概率(DEP)阈值违反和SINR中断概率方面，H-MAPPO的性能与集中式优化方法JCPC相当，并显著优于非分层MAPPO、机会性聚类和最近AP服务等基线方法。H-MAPPO能够将用户的SINR中断概率控制在极低水平（CDF在10^-8附近接近1）。
•
发射功率性能：H-MAPPO在满足DEP阈值的前提下，实现了最低的总发射功率。相比之下，JCPC和MSAC等方案需要更高的功率来满足可靠性目标。H-MAPPO在90%的时间内使用的功率低于最大可用功率的60%，而机会性方案仅30%的时间能做到这一点，显示了其优异的能效。
•
集群规模与可扩展性性能：H-MAPPO形成的服务集群规模分布更集中于较小的集群大小（通常涉及半数或更少的AP），这有利于简化协调。同时，H-MAPPO的集群重新配置率仅为9%，远低于JCPC的83%，表明其能更好地适应动态环境并保持集群稳定性。

结论与意义

本研究成功提出并验证了一个用于无人机移动性管理的分层多智能体深度强化学习框架。该框架通过将复杂的联合优化问题分解为高层集群重构和低层功率分配两个子问题，并利用动作-观测转换机制增强层级协调，有效解决了多连接无线干扰网络中动态集群重构和能效功率分配的挑战。仿真结果表明，H-MAPPO算法在通信可靠性（极低的中断概率）、功率效率（低功耗）和系统可扩展性（决策时间随规模增长缓慢）方面均表现出色，其性能可与集中式优化方法相媲美，同时避免了后者的高计算复杂性和可扩展性瓶颈。这项工作为未来支持高移动性、超可靠应用的6G无线网络（尤其是集成非地面网络的场景）中的智能资源管理和移动性控制提供了有前景的解决方案。研究也指出了未来的方向，例如将当前单个边缘云服务区域内的集群管理扩展到跨多个云、涉及多智能体协作的 inter-cloud 集群重构场景。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部