FedDRLPD：一种基于深度强化学习的防御机制，用于抵御联邦学习中的投毒攻击

时间：2026年2月16日

来源：Knowledge-Based Systems

编辑推荐：

联邦学习对抗投毒攻击的动态防御框架 FedDRLPD 融合深度强化学习（DRL）实现自适应可信用户筛选，通过 Mahalanobis 距离评估用户行为异常性并构建多目标奖励函数优化策略。实验表明其全局模型精度提升最高达9%，收敛速度显著优于现有静态检测方法，有效应对异构数据与动态攻击场景。

中国昆明理工大学信息工程与自动化学院，昆明

摘要

联邦学习允许用户在本地设备上处理他们的原始数据以保护隐私。然而，这一特性也使得用户能够完全操控他们的本地模型和数据，从而使联邦学习系统容易受到恶意用户的投毒攻击。为了解决这一问题，我们提出了FedDRLPD，这是一种将深度强化学习集成到联邦学习中的新型防御框架，能够从不可信的参与者中动态选择良性用户。与现有的防御机制不同，FedDRLPD利用深度Q网络（DQN）的决策能力，根据观察到的用户行为和系统状态动态排除恶意用户，从而提高对投毒攻击的抵抗力。为了更准确地区分良性用户和恶意用户，我们设计了一个攻击者概率系数，并将其与马氏距离结合使用，为每个用户计算出一个综合的恶意评分。此外，我们还提出了一个精细的多指标奖励函数，以有效引导DQN选择最优和可信的用户。我们在三个广泛使用的数据集上进行了大量模拟实验，涵盖了多种投毒场景。实验结果表明，FedDRLPD的准确性比现有方法提高了多达9%，同时在异构环境中也能保持高性能。

引言

自从Google在2017年提出联邦学习的概念以来[1]，它因能够在保护用户数据隐私的同时实现高效的分布式模型训练而受到了广泛关注。在联邦学习中，只有模型参数在用户和中央服务器之间交换，而不是原始数据[2]。这种内在的本地数据保留机制确保了用户数据保留在用户的设备上，使得联邦学习特别适用于数据安全和隐私至关重要的场景[3]。因此，联邦学习已被广泛应用于医疗健康[4]、智能交通[5]、工业生产[6]和金融[7]等多个领域。

尽管联邦学习提供了隐私保护，但现有研究[2]、[8]、[9]也表明它引入了新的安全挑战。其中最紧迫的问题之一是投毒攻击的威胁，恶意用户会故意提交被篡改的模型更新来破坏全局模型聚合过程。由于中央服务器无法验证单个更新的可靠性，投毒攻击会显著降低全局模型的性能，导致预测不准确甚至产生系统偏差[10]。由于投毒攻击能够以相对较低的成本严重破坏系统的完整性和可靠性[11]，它已成为当代网络安全研究的关键关注点。

为了防御联邦学习中的投毒攻击，研究人员提出了许多有效的防御策略[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]，这些策略大致可以分为鲁棒聚合、基于声誉和基于相似性的方法。具体来说，基于鲁棒聚合的方法[12]、[13]利用统计或几何属性来识别可信的良性用户，而不依赖于对对手行为的特定假设。然而，这些方法在非独立同分布（non-IID）数据分布下往往性能下降明显。基于声誉的方法[14]、[15]根据用户的历史行为在模型聚合过程中分配贡献权重。然而，基于声誉的方法无法完全消除恶意用户对全局模型的影响。为了完全消除恶意用户对全局模型的影响，基于相似性的方法[16]、[17]、[18]、[19]通过余弦相似度来识别并丢弃恶意模型。这些方法通过计算用户上传的梯度之间的相似度来检测和排除与大多数本地模型有显著差异的异常模型。

然而，上述方法仍然面临重大挑战。在数据高度异构的情况下，良性用户也可能产生与其他用户模型更新有显著差异的更新。因此，基于相似性的检测方法可能会错误地将良性用户识别为恶意用户，从而阻碍全局模型的收敛。此外，一个更关键的问题是，大多数现有方法忽略了对手行为的适应性和变异性。基于梯度相似性的静态检测机制难以应对这种动态变化，导致检测准确性和整体防御鲁棒性逐渐下降。因此，开发能够动态感知模型差异的适应性防御机制至关重要。

深度强化学习作为一种能够通过与环境的交互自主优化决策的技术，具有强大的自我学习能力。在这项研究中，我们提出了FedDRLPD，这是一种基于DRL的联邦学习防御框架，首次采用由深度强化学习驱动的动态客户端选择机制来应对联邦学习中的投毒攻击。与依赖固定阈值识别恶意用户的传统方法不同，FedDRLPD将基于马氏距离的连续概率恶意性估计和模型准确性整合到了DQN代理的状态和奖励设计中。DQN能够自主学习选择对全局模型有积极贡献的客户端，从而实现实时策略更新、误报抑制以及在异构数据和投毒攻击条件下的加速收敛。为了进一步提高决策质量，我们设计了一个定制的奖励函数，平衡了多个目标，引导强化学习过程做出最优决策。本文的主要贡献如下：

•

我们提出了一种基于DRL的新型防御框架，用于防御投毒攻击，能够实现细粒度和动态的客户端选择，有效减轻恶意用户的威胁，同时保持模型完整性。

•

我们设计了一种基于马氏距离的恶意性评估机制，综合考虑了用户的当前行为和历史攻击模式，为DRL提供了可靠的异常信号，减少了良性客户端的误分类。

•

我们构建了一个与全局性能紧密相关的奖励函数，明确结合了准确性提升和收敛速度，引导DQN策略优化，以实现最优的聚合决策。

•

在多种环境下的广泛实验表明，我们的方法比现有方法具有更高的准确性和稳定性，并且收敛速度显著更快。

本文的其余部分组织如下：第2节回顾了相关工作，第3节介绍了联邦学习和DQN的概述，第4节详细介绍了所提出的方法，第5节报告了实验结果，第6节总结了本文。

投毒攻击会显著降低联邦学习中全局模型的性能[20]、[21]，因此成为了一个重要的研究焦点。本节介绍了几项代表性研究，并分析了它们的优点和局限性。

联邦学习

联邦学习的核心思想是通过在多个设备或节点上聚合本地模型更新来构建一个全局共享模型。与传统的集中式学习方法不同，联邦学习将数据保留在本地设备或节点上，并允许多个数据持有者通过交换模型参数来完成全局模型的训练，而无需共享原始数据。这里我们假设一个由N个用户和一个中央服务器组成的联邦学习场景。

基于DRL的防御机制

在本节中，我们将详细介绍所提出的联邦防御方案，并解释其关键组件的功能。

实验

为了直观展示模型的性能，我们将进行具体实验来验证所提出的防御系统的有效性。第5.1节介绍了实验的一些基本配置，第5.2节分析和讨论了实验结果。

结论

本文介绍了FedDRLPD，它将深度强化学习集成到联邦投毒防御的核心中。通过利用动态学习的选择策略，FedDRLPD不仅防御了投毒攻击，还提高了模型准确性和收敛效率。与依赖静态相似性度量或固定阈值的现有方法不同，FedDRLPD通过与环境的持续交互自主学习最优的聚合策略。

CRediT作者贡献声明

Nuo Xu：撰写——原始草稿、软件、方法论。Yong Feng：撰写——原始草稿、项目管理、方法论、资金获取。Nianbo Liu：撰写——原始草稿、形式分析、数据管理。Ming Liu：撰写——原始草稿、可视化、验证。Yingna Li：撰写——审稿与编辑、监督、资源管理。Xiaodong Fu：撰写——审稿与编辑、监督、资源管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62062047）的支持；部分得到了云南省人才支持计划（项目编号YFGRC202415）的支持；部分得到了云南省重大科学技术项目（项目编号202402AD080003和202302AD080002）的支持；还得到了云南省高层次科技人才和创新团队选拔专项项目（项目编号202405AS350001）的支持。