强化学习(RL)在多智能体系统(MAS)中取得了快速进展,并越来越多地应用于复杂的现实世界场景中,例如无人机(UAV)群(Liang等人,2023年)、自动驾驶车队(Muhammad等人,2020年)和分布式机器人协调(Brunke等人,2022年)。在这些不同的领域中,从虚拟仿真到实际部署的过渡带来了两个基本且相互关联的挑战:安全保障和受限通信。安全性至关重要,因为在动态环境中运行的智能体必须严格遵守碰撞避免约束和操作边界,以防止灾难性故障(Gu等人,2024b年)。同时,实际部署通常会由于带宽限制或硬件能力而受到通信限制,迫使智能体仅基于部分观察和局部信息进行决策(Wang等人,2020年)。
为了解决安全性问题,安全多智能体强化学习(MARL)已成为一个重要的研究方向(Gu等人,2024b年)。与传统的MARL方法不同,后者通常将安全约束视为负面奖励惩罚——这种方法由于奖励最大化与风险最小化之间的冲突而无法保证约束的满足(Chen等人,2021年;Huang等人,2024年;Yan等人,2022年);现代的安全MARL算法采用了更为严格的公式化方法。受到单智能体安全RL算法的启发(Achiam等人,2017年;Rashid等人,2020年;Ray等人,2019年),如CMIX(Liu等人,2021年)和MACPO(Gu等人,2023年)等方法将安全要求作为策略优化过程中的显式成本约束进行建模。这些方法已经证明了在最优性和安全性之间有效平衡的能力。然而,这些现有安全MARL框架的一个显著局限性是它们严重依赖于全局状态信息或完全连接的通信拓扑。当智能体数量增加时,这些方法往往难以扩展到大规模系统,从而导致性能下降。
相反,为了解决可扩展性和通信受限的问题,图神经网络(GNN)已被广泛整合到MARL框架中(Hu等人,2024年;Munikoti等人,2024年)。通过利用GNN的排列不变性和高效的消息传递机制,像Guo等人(2023年;Pu等人,2023年;Zhu等人,2024b年)这样的方法使得智能体能够在集中训练分散执行(CTDE)范式下仅使用局部视图进行有效协作。尽管这些基于GNN的方法在可扩展性方面表现出色,但它们主要关注奖励最大化,而很大程度上忽略了物理系统中所需的严格安全约束。仅依赖GNN而不采用显式的安全机制往往会导致在探索过程中访问不安全的状态,这在现实世界设施中是不可接受的。
这种二分法突显了当前研究中的一个关键差距和重大工程难题:我们如何建立一个统一的框架,既能保证安全约束,又能保持在通信受限的情况下的可扩展性?结合这两个组件并非易事,因为建立这样的模型面临着“安全性-可扩展性权衡”的挑战:严格的安全优化(即CPO)通常需要准确的全局约束估计,而这从可扩展图拓扑中获得的碎片化局部信息中很难重建。因此,很少有研究成功地将受限策略优化与基于图的通信结合起来。
为了弥合这一差距,我们提出了一种名为基于图的安全多智能体强化学习(GS-MARL)的新框架。与以往将安全性和可扩展性视为独立模块的研究不同,GS-MARL将基于GNN的表示学习深度整合到受限联合策略优化循环中。通过利用MAS的固有图结构,我们的方法实现了高效的“安全信息聚合”,允许智能体通过局部消息传递来估计和遵守全局安全约束。这种设计确保了即使在智能体数量众多且感知能力有限的情况下,学习过程也能保持安全。为了验证我们方法的有效性,我们进行了广泛的多智能体仿真和使用Mecanum轮式车辆的真实世界硬件实验。本工作的主要贡献总结如下:
1.我们建立了一个基于GNN的安全聚合框架。设计了一种双重信息聚合架构(智能体与图聚合),以便在部分可观察性下实现隐式通信,有效解决了从局部观察估计安全约束的工程难题。
2.我们在受限通信下开发了一种安全的多智能体决策机制。与依赖软奖励惩罚的可扩展性方法不同,我们将受限策略优化推广到具有多个硬约束和可行性恢复机制的多智能体环境中。
3.我们展示了强大的性能和零样本迁移能力。通过广泛的实验和硬件实现,GS-MARL的表现优于现有基线方法,证明了其在不同智能体数量的情况下具有泛化能力。
为了清楚地说明GS-MARL在当前研究领域的独特地位,我们在表1中总结了我们的方法与代表性基线之间的特征比较。如表所示,GS-MARL是唯一一个同时解决可扩展性、硬安全约束和分散执行问题的框架。
本文的结构如下。第2节对相关工作进行了全面回顾。第3节概述了初步工作和问题表述。第4节详细介绍了GS-MARL的设计过程。第5节进行了实验和相关分析。最后,第6节总结了本研究。