一种基于图的安全强化学习方法，用于多智能体协作

时间：2026年2月7日

来源：Neural Networks

编辑推荐：

本文提出图神经网络安全多智能体强化学习框架（GS-MARL），通过设计双重信息聚合架构和约束联合策略优化机制，有效解决大规模多智能体系统中安全性与可扩展性的矛盾。实验表明，GS-MARL在多智能体协作导航任务中成功率达基准10%以上，且支持硬件部署验证。

Fandi Gou|Haikuo Du|Yunze Cai

上海交通大学自动化与智能感知学院，中国上海 200240

摘要

安全性和受限通信是实际多智能体系统（MAS）面临的两大关键挑战。然而，大多数仅依赖奖励塑形的多智能体强化学习（MARL）算法在确保安全性方面效果不佳，且由于完全连接的通信方式，其应用范围相当有限。为了解决这些问题，我们提出了一种新的框架——基于图的安全MARL（GS-MARL），以提高MARL方法的安全性和可扩展性。利用MAS的固有图结构，我们设计了一种基于消息传递的图神经网络（GNN），以聚合不同大小的局部观察和通信信息。此外，我们开发了一种在局部观察情况下的受限联合策略优化方法来提高安全性。仿真实验表明，与其他方法相比，GS-MARL在最优性和安全性之间实现了更好的平衡；在大规模通信受限的场景中，GS-MARL的成功率至少比领先的基线方法高出10%。我们的方法还通过Mecanum轮式车辆的硬件实现得到了验证。代码和演示可在https://github.com/finleygou/GS-MARL获取。

引言

强化学习（RL）在多智能体系统（MAS）中取得了快速进展，并越来越多地应用于复杂的现实世界场景中，例如无人机（UAV）群（Liang等人，2023年）、自动驾驶车队（Muhammad等人，2020年）和分布式机器人协调（Brunke等人，2022年）。在这些不同的领域中，从虚拟仿真到实际部署的过渡带来了两个基本且相互关联的挑战：安全保障和受限通信。安全性至关重要，因为在动态环境中运行的智能体必须严格遵守碰撞避免约束和操作边界，以防止灾难性故障（Gu等人，2024b年）。同时，实际部署通常会由于带宽限制或硬件能力而受到通信限制，迫使智能体仅基于部分观察和局部信息进行决策（Wang等人，2020年）。

为了解决安全性问题，安全多智能体强化学习（MARL）已成为一个重要的研究方向（Gu等人，2024b年）。与传统的MARL方法不同，后者通常将安全约束视为负面奖励惩罚——这种方法由于奖励最大化与风险最小化之间的冲突而无法保证约束的满足（Chen等人，2021年；Huang等人，2024年；Yan等人，2022年）；现代的安全MARL算法采用了更为严格的公式化方法。受到单智能体安全RL算法的启发（Achiam等人，2017年；Rashid等人，2020年；Ray等人，2019年），如CMIX（Liu等人，2021年）和MACPO（Gu等人，2023年）等方法将安全要求作为策略优化过程中的显式成本约束进行建模。这些方法已经证明了在最优性和安全性之间有效平衡的能力。然而，这些现有安全MARL框架的一个显著局限性是它们严重依赖于全局状态信息或完全连接的通信拓扑。当智能体数量增加时，这些方法往往难以扩展到大规模系统，从而导致性能下降。

相反，为了解决可扩展性和通信受限的问题，图神经网络（GNN）已被广泛整合到MARL框架中（Hu等人，2024年；Munikoti等人，2024年）。通过利用GNN的排列不变性和高效的消息传递机制，像Guo等人（2023年；Pu等人，2023年；Zhu等人，2024b年）这样的方法使得智能体能够在集中训练分散执行（CTDE）范式下仅使用局部视图进行有效协作。尽管这些基于GNN的方法在可扩展性方面表现出色，但它们主要关注奖励最大化，而很大程度上忽略了物理系统中所需的严格安全约束。仅依赖GNN而不采用显式的安全机制往往会导致在探索过程中访问不安全的状态，这在现实世界设施中是不可接受的。

这种二分法突显了当前研究中的一个关键差距和重大工程难题：我们如何建立一个统一的框架，既能保证安全约束，又能保持在通信受限的情况下的可扩展性？结合这两个组件并非易事，因为建立这样的模型面临着“安全性-可扩展性权衡”的挑战：严格的安全优化（即CPO）通常需要准确的全局约束估计，而这从可扩展图拓扑中获得的碎片化局部信息中很难重建。因此，很少有研究成功地将受限策略优化与基于图的通信结合起来。

为了弥合这一差距，我们提出了一种名为基于图的安全多智能体强化学习（GS-MARL）的新框架。与以往将安全性和可扩展性视为独立模块的研究不同，GS-MARL将基于GNN的表示学习深度整合到受限联合策略优化循环中。通过利用MAS的固有图结构，我们的方法实现了高效的“安全信息聚合”，允许智能体通过局部消息传递来估计和遵守全局安全约束。这种设计确保了即使在智能体数量众多且感知能力有限的情况下，学习过程也能保持安全。为了验证我们方法的有效性，我们进行了广泛的多智能体仿真和使用Mecanum轮式车辆的真实世界硬件实验。本工作的主要贡献总结如下：

我们建立了一个基于GNN的安全聚合框架。设计了一种双重信息聚合架构（智能体与图聚合），以便在部分可观察性下实现隐式通信，有效解决了从局部观察估计安全约束的工程难题。

我们在受限通信下开发了一种安全的多智能体决策机制。与依赖软奖励惩罚的可扩展性方法不同，我们将受限策略优化推广到具有多个硬约束和可行性恢复机制的多智能体环境中。

我们展示了强大的性能和零样本迁移能力。通过广泛的实验和硬件实现，GS-MARL的表现优于现有基线方法，证明了其在不同智能体数量的情况下具有泛化能力。

为了清楚地说明GS-MARL在当前研究领域的独特地位，我们在表1中总结了我们的方法与代表性基线之间的特征比较。如表所示，GS-MARL是唯一一个同时解决可扩展性、硬安全约束和分散执行问题的框架。

本文的结构如下。第2节对相关工作进行了全面回顾。第3节概述了初步工作和问题表述。第4节详细介绍了GS-MARL的设计过程。第5节进行了实验和相关分析。最后，第6节总结了本研究。

部分内容

安全MARL

安全RL的一个研究范式是受限马尔可夫决策过程（Constrained Markov Decision Process，Altman，2021年），它在MDP状态转换期间考虑了成本约束。基于这一范式，提出了CPO（Achiam等人，2017年）、TRPO-Lagrangian（Ray等人，2019年）和PPO-Lagrangian（Ray等人，2019年）等算法，这些算法都受到了TRPO（Schulman，2015年）的启发。在多智能体环境中，每个智能体不仅必须遵守自己的成本约束，还必须确保所有智能体的联合行为

受限马尔可夫博弈

我们将安全MARL问题表述为一个受限马尔可夫博弈（Constrained Markov Game，CMG）⟨N, S, A, P, ρ₀, R, γ, C, c, γ_c⟩，其中

N = {1, 2, . ., n}

A = \prod_{i = 1}^{A_{i}}

P : S \times A \to R

是状态空间，

C = {C_{i}^{:}

R = S \times A \to R

是状态转换函数，

c = {c_{i}^{: R | i \in N, 1\leqj\leq}

方法

本节从三个角度详细阐述了GS-MARL：图构建、带有安全约束的训练框架以及联合策略优化。GS-MARL的框架如图1所示，上述过程从左到右依次呈现。

实验

我们在多智能体粒子环境（Multi-agent Particle Environment，Mordatch和Abbeel，2018年）中进行了仿真实验，并对其进行了修改以适应安全MARL算法。我们选择了合作导航任务来验证GS-MARL的性能，在该任务中，每个智能体必须在避免碰撞的同时到达自己的目标。智能体之间的碰撞次数被建模为成本，碰撞次数越少表示安全性越高。为了展示GS-MARL处理多重