联邦学习(FL)使多方能够协作构建性能提升的全局模型,用于医疗图像诊断等应用,而无需披露每个FL参与者拥有的私有数据[1]、[2]。然而,当多方拥有的私有数据分布极度非独立同分布(Non-IID)时,模型性能的提升会停滞。此外,需要多轮通信来确保全局模型的收敛。普遍认为这种低效率源于数据分布的非独立同分布特性[3]、[4]、[5]。然而,我们的工作重新审视了这一假设,并证明在理想条件下,解耦本身并不一定会导致效率降低。因此,联邦学习的一个关键挑战是在保持模型效用和隐私的同时实现高效率[1]、[6]。
受到分布式系统的启发,在分布式系统中,复杂任务可以分解为独立的子任务,然后分配给多个客户端进行并行执行[7],我们认为理想的联邦学习算法可以实现与达到完全并行性的分布式系统相当的效率水平[8],前提是客户端之间的数据分布可以完全解耦,如图1(a)所示。例如,针对两种皮肤疾病(痣和黑色素瘤)的医学影像诊断任务[9]可以分解为两个独立的子任务。这些任务分别分配给两家医院,各自并行训练模型,最终合并成一个全局模型。定理1表明,客户端之间的解耦分布实际上是实现联邦学习理想效率的充分条件,且仅需一轮通信。实际上,这一理想条件在实践中经常得到满足,例如当数百万移动设备客户端参与联邦学习时,大多数客户端的数据分布彼此不同[5]、[10]。因此,服务器可以主动选择数据分布解耦的客户端(见图1(c))。换句话说,在这种接近解耦的情况下(见图1(b)),存在一种联邦学习算法,能够在保证效用损失在可容忍范围内的同时,仅通过一轮通信实现全局模型效用。
为了充分利用上述接近解耦和解耦的情况,我们首先提出将数据分布解耦为不同的组成部分,以便每个客户端可以独立启动各自的学习任务。从技术上讲,有多种方法可以用来分解数据分布,包括子空间分解 [11]、[12]到字典学习 [13]等。在这项工作中,我们提出了一种名为FedDistr的算法。在我们的方法中,客户端结合使用扩散模型技术[14]和聚类来有效提取其数据分布,并将其解耦为基本分布。这些解耦后的分布随后上传到服务器,服务器会主动识别基本分布之间的正交或并行关系,并据此进行聚合。
先前的研究[15]表明,在效用、隐私和效率之间无法同时达到最优结果。所提出的FedDistr在解耦和接近解耦的情况下,在模型效用和效率之间提供了更好的平衡,同时仍保证了联邦学习的隐私性:(1)通过将客户端数据分布解耦为不同的基本分布,服务器主动对齐不同客户端的基本分布,而FedAvg不进行这种解耦,导致全局性能下降,尤其是在解耦情况下;(2)FedDistr仅需要一轮通信,传输的分布参数量远小于模型梯度;(3)FedDistr传输的数据分布参数量极少,从而在一定程度上降低了个别数据隐私泄露的风险。此外,还可以将差分隐私(DP)[16]等隐私机制集成到FedDistr中,第4.2节提供了额外的数据隐私保护。