为最优且通信效率高的联邦学习分离数据分布

时间:2026年1月29日
来源:Artificial Intelligence

编辑推荐:

联邦学习通过解耦非独立同分布数据提升效率,提出FedDistr算法利用扩散模型实现单次通信高效训练并保障隐私。

广告
   X   

Xinyuan Zhao|Hanlin Gu|Lixin Fan|Yuxing Han|Qiang Yang
WeBank,AI集团,深圳

摘要

联邦学习(FL)促进了全局模型的协同训练,该模型的性能通过分布式客户拥有的私有数据得到提升,同时不泄露数据隐私。然而,FL的广泛应用受到不同客户端数据分布纠缠的阻碍。本文首次证明,通过解耦数据分布,FL原则上可以实现与分布式系统相当的效率,且仅需一轮通信。为此,我们提出了一种名为FedDistr的新算法,该算法利用扩散模型来解耦和恢复数据分布。在CIFAR100、DomainNet、OfficeHome和ISIC2020数据集上的实验结果表明,FedDistr在解耦和接近解耦的情况下显著提高了模型效用和效率,同时确保了隐私,优于传统的联邦学习方法。

引言

联邦学习(FL)使多方能够协作构建性能提升的全局模型,用于医疗图像诊断等应用,而无需披露每个FL参与者拥有的私有数据[1]、[2]。然而,当多方拥有的私有数据分布极度非独立同分布(Non-IID)时,模型性能的提升会停滞。此外,需要多轮通信来确保全局模型的收敛。普遍认为这种低效率源于数据分布的非独立同分布特性[3]、[4]、[5]。然而,我们的工作重新审视了这一假设,并证明在理想条件下,解耦本身并不一定会导致效率降低。因此,联邦学习的一个关键挑战是在保持模型效用和隐私的同时实现高效率[1]、[6]。
受到分布式系统的启发,在分布式系统中,复杂任务可以分解为独立的子任务,然后分配给多个客户端进行并行执行[7],我们认为理想的联邦学习算法可以实现与达到完全并行性的分布式系统相当的效率水平[8],前提是客户端之间的数据分布可以完全解耦,如图1(a)所示。例如,针对两种皮肤疾病(痣和黑色素瘤)的医学影像诊断任务[9]可以分解为两个独立的子任务。这些任务分别分配给两家医院,各自并行训练模型,最终合并成一个全局模型。定理1表明,客户端之间的解耦分布实际上是实现联邦学习理想效率的充分条件,且仅需一轮通信。实际上,这一理想条件在实践中经常得到满足,例如当数百万移动设备客户端参与联邦学习时,大多数客户端的数据分布彼此不同[5]、[10]。因此,服务器可以主动选择数据分布解耦的客户端(见图1(c))。换句话说,在这种接近解耦的情况下(见图1(b)),存在一种联邦学习算法,能够在保证效用损失在可容忍范围内的同时,仅通过一轮通信实现全局模型效用。
为了充分利用上述接近解耦和解耦的情况,我们首先提出将数据分布解耦为不同的组成部分,以便每个客户端可以独立启动各自的学习任务。从技术上讲,有多种方法可以用来分解数据分布,包括子空间分解 [11]、[12]到字典学习 [13]等。在这项工作中,我们提出了一种名为FedDistr的算法。在我们的方法中,客户端结合使用扩散模型技术[14]和聚类来有效提取其数据分布,并将其解耦为基本分布。这些解耦后的分布随后上传到服务器,服务器会主动识别基本分布之间的正交或并行关系,并据此进行聚合。
先前的研究[15]表明,在效用、隐私和效率之间无法同时达到最优结果。所提出的FedDistr在解耦和接近解耦的情况下,在模型效用和效率之间提供了更好的平衡,同时仍保证了联邦学习的隐私性:(1)通过将客户端数据分布解耦为不同的基本分布,服务器主动对齐不同客户端的基本分布,而FedAvg不进行这种解耦,导致全局性能下降,尤其是在解耦情况下;(2)FedDistr仅需要一轮通信,传输的分布参数量远小于模型梯度;(3)FedDistr传输的数据分布参数量极少,从而在一定程度上降低了个别数据隐私泄露的风险。此外,还可以将差分隐私(DP)[16]等隐私机制集成到FedDistr中,第4.2节提供了额外的数据隐私保护。

部分摘录

通信高效的联邦学习

最早的减少通信开销的方法之一是FedAvg算法[1]。FedAvg允许每个客户端进行多次局部更新,然后再在服务器上对模型进行平均,从而显著降低了通信频率。为了进一步降低通信成本,联邦学习中实现了压缩技术(如量化和稀疏化[17])和客户端选择策略[18]、[19]。然而,所有这些方法的效果都较差

FL中的数据分布解耦

在本节中,我们首先介绍水平联邦学习(HFL)场景,并定义数据分布的纠缠和解耦。然后从数据分布纠缠的角度提供理论结果,说明在哪些条件下客户端可以直接通信。

提出的方法

本节介绍所提出的算法FedDistr,该算法通过利用潜在扩散模型(LDM,[31])的快速推理速度和开源模型参数的广泛可用性,实现了仅一轮通信的同时保持模型效用。FedDistr主要分为以下四个步骤(见图2和算法1)。第4节:FedDistr分为四个阶段(见图2和算法1)。阶段A:客户端侧数据解耦。每个客户端

实验结果

在本节中,我们通过实证研究将我们的方法(FedDistr)与现有的四种方法(如FedAVG [1]、FedProx [20]、MOON [37]、FedProto [38]和FedGEN [39])在CIFAR100 [40]、DomainNet [41]、OfficeHome [42]和ISIC2020 [9]数据集上的效用、隐私和通信效率进行了比较。ISIC2020数据集的详细实验结果见附录B。

讨论与结论

在本文中,我们解决了由于客户端数据分布纠缠而导致的联邦学习(FL)中的关键效率问题。通过分析数据分布的纠缠,我们证明了实现解耦数据结构可以显著提高模型效用和通信效率。我们的理论分析表明,在接近解耦的情况下,FL可以通过单轮通信实现最佳性能,这与

致谢

我们感谢以下组织的支持:1. 中国深圳的WeBank AI部门;2. 中国香港理工大学的AI学院;3. 中国深圳的深圳市自然科学基金JCYJ20250604180316022。

写作过程中关于生成式AI和AI辅助技术的声明

在准备本工作时,作者使用了ChatGPT来提高语言的可读性。使用该工具/服务后,作者根据需要对内容进行了审阅和编辑,并对出版物的内容负全责。

CRediT作者贡献声明

Xinyuan Zhao:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,数据整理,概念化。Hanlin Gu:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,形式分析,概念化。Lixin Fan:方法论,概念化。Yuxing Han:概念化。Qiang Yang:撰写 – 审稿与编辑,方法论,概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

生物通微信公众号
微信
新浪微博


生物通 版权所有