自从Google在2017年提出联邦学习的概念以来[1],它因能够在保护用户数据隐私的同时实现高效的分布式模型训练而受到了广泛关注。在联邦学习中,只有模型参数在用户和中央服务器之间交换,而不是原始数据[2]。这种内在的本地数据保留机制确保了用户数据保留在用户的设备上,使得联邦学习特别适用于数据安全和隐私至关重要的场景[3]。因此,联邦学习已被广泛应用于医疗健康[4]、智能交通[5]、工业生产[6]和金融[7]等多个领域。
尽管联邦学习提供了隐私保护,但现有研究[2]、[8]、[9]也表明它引入了新的安全挑战。其中最紧迫的问题之一是投毒攻击的威胁,恶意用户会故意提交被篡改的模型更新来破坏全局模型聚合过程。由于中央服务器无法验证单个更新的可靠性,投毒攻击会显著降低全局模型的性能,导致预测不准确甚至产生系统偏差[10]。由于投毒攻击能够以相对较低的成本严重破坏系统的完整性和可靠性[11],它已成为当代网络安全研究的关键关注点。
为了防御联邦学习中的投毒攻击,研究人员提出了许多有效的防御策略[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19],这些策略大致可以分为鲁棒聚合、基于声誉和基于相似性的方法。具体来说,基于鲁棒聚合的方法[12]、[13]利用统计或几何属性来识别可信的良性用户,而不依赖于对对手行为的特定假设。然而,这些方法在非独立同分布(non-IID)数据分布下往往性能下降明显。基于声誉的方法[14]、[15]根据用户的历史行为在模型聚合过程中分配贡献权重。然而,基于声誉的方法无法完全消除恶意用户对全局模型的影响。为了完全消除恶意用户对全局模型的影响,基于相似性的方法[16]、[17]、[18]、[19]通过余弦相似度来识别并丢弃恶意模型。这些方法通过计算用户上传的梯度之间的相似度来检测和排除与大多数本地模型有显著差异的异常模型。
然而,上述方法仍然面临重大挑战。在数据高度异构的情况下,良性用户也可能产生与其他用户模型更新有显著差异的更新。因此,基于相似性的检测方法可能会错误地将良性用户识别为恶意用户,从而阻碍全局模型的收敛。此外,一个更关键的问题是,大多数现有方法忽略了对手行为的适应性和变异性。基于梯度相似性的静态检测机制难以应对这种动态变化,导致检测准确性和整体防御鲁棒性逐渐下降。因此,开发能够动态感知模型差异的适应性防御机制至关重要。
深度强化学习作为一种能够通过与环境的交互自主优化决策的技术,具有强大的自我学习能力。在这项研究中,我们提出了FedDRLPD,这是一种基于DRL的联邦学习防御框架,首次采用由深度强化学习驱动的动态客户端选择机制来应对联邦学习中的投毒攻击。与依赖固定阈值识别恶意用户的传统方法不同,FedDRLPD将基于马氏距离的连续概率恶意性估计和模型准确性整合到了DQN代理的状态和奖励设计中。DQN能够自主学习选择对全局模型有积极贡献的客户端,从而实现实时策略更新、误报抑制以及在异构数据和投毒攻击条件下的加速收敛。为了进一步提高决策质量,我们设计了一个定制的奖励函数,平衡了多个目标,引导强化学习过程做出最优决策。本文的主要贡献如下:
•我们提出了一种基于DRL的新型防御框架,用于防御投毒攻击,能够实现细粒度和动态的客户端选择,有效减轻恶意用户的威胁,同时保持模型完整性。
•我们设计了一种基于马氏距离的恶意性评估机制,综合考虑了用户的当前行为和历史攻击模式,为DRL提供了可靠的异常信号,减少了良性客户端的误分类。
•我们构建了一个与全局性能紧密相关的奖励函数,明确结合了准确性提升和收敛速度,引导DQN策略优化,以实现最优的聚合决策。
•在多种环境下的广泛实验表明,我们的方法比现有方法具有更高的准确性和稳定性,并且收敛速度显著更快。
本文的其余部分组织如下:第2节回顾了相关工作,第3节介绍了联邦学习和DQN的概述,第4节详细介绍了所提出的方法,第5节报告了实验结果,第6节总结了本文。