摘要:
多用户虚拟现实(VR)网络在无线环境中面临重大挑战,因为它们对低延迟、高带宽以及针对具有不同需求的并发用户进行高效资源分配有着严格的要求。在动态环境中,这些挑战变得更加复杂,因为用户会移动和互动,从而产生不同的负载模式和潜在的资源竞争。传统的优化方法往往难以在最大化用户体验(QoE)和有效利用有限的网络资源之间取得平衡。本文采用了一种基于近端策略优化(PPO-MAMDP)的多智能体马尔可夫决策过程框架,来共同优化多用户无线VR网络中的通信、计算和缓存资源。我们的方法将问题表述为一种社会福利最大化问题,通过多个智能体之间的协调决策,在VR用户QoE和小型基站(SBS)资源效率之间取得平衡。该框架结合了具有广义优势估计(GAE)的演员-评论家网络,以提高训练稳定性并在处理复杂决策空间时加快收敛速度。仿真结果表明,所提出的PPO-MAMDP算法在多个指标上均优于基线方法,在用户体验和系统效率方面都取得了更好的性能。随着网络密度的增加,该算法表现出强大的适应性和更高的稳定性。我们的方法在系统和用户指标上均保持了平衡的性能,使其特别适合下一代多用户VR应用。