Fluke：用于实验和研究的联邦学习工具框架（Federated Learning Utility Framework for Experimentation and Research）

时间：2025年11月10日

来源：Future Generation Computer Systems

编辑推荐：

fluke是一个专为联邦学习算法快速原型设计和评估的Python库，解决了现有框架在灵活性、易用性和效率上的不足。它通过模块化架构、丰富的内置算法（如FedAvg、FedProx等36种算法）和灵活的数据分割方式（支持IID、Dirichlet非IID分布等5种数据分布），简化了算法开发流程。实验表明，fluke在训练速度和资源占用方面优于Flower、FLUTE和PFLlib，同时保持代码可读性和可扩展性，适合研究和开发新算法。

自2016年诞生以来，联邦学习（Federated Learning, FL）在机器学习领域获得了广泛关注。联邦学习的核心理念是在不直接交换数据的前提下，通过多个设备或服务器上的本地数据样本训练模型，从而在保护隐私的同时提升模型性能。这一方法在医疗记录、金融信息和用户行为等敏感数据的处理中尤为重要。随着联邦学习研究的深入，许多研究者开始尝试快速实现新的算法以验证其效果，但这一过程通常需要从头开始编写代码，包括模拟环境和基准测试，这在一定程度上增加了开发的复杂性。因此，研究者们需要一个既能支持快速原型设计，又能保持灵活性的工具，以简化这一流程。

在这样的背景下，我们提出了**fluke**，一个专为快速开发和评估联邦学习算法而设计的Python工具包。**fluke**的核心目标是帮助研究者和实践者专注于算法本身，而非系统实现的细节。该工具包具备开放源代码、易于使用、易于扩展、与时俱进以及模拟环境等特性，能够显著降低研究者在算法开发和测试中的技术负担，同时提高研究的可重复性和可验证性。通过提供一组先进的算法和数据集，**fluke**不仅能够作为研究工具，还可以直接用于实验验证，为联邦学习研究提供了便捷的平台。

### **fluke的核心特点**

1. **开放源代码**
**fluke**是一个开源的Python库，代码遵循PEP8规范，并且配有详尽的文档。这使得用户能够轻松访问和理解其内部结构，从而进行定制化开发。此外，代码设计旨在尽可能贴近算法描述和数学符号，便于用户快速上手。

2. **易于使用**
通过命令行接口（CLI），用户只需运行一条命令即可启动联邦学习实验。这一特性大大简化了实验的配置过程，避免了繁琐的代码编写，提高了实验效率。同时，**fluke**提供了清晰的API接口，使得实验的可读性和可操作性得到了保障。

3. **易于扩展**
**fluke**的设计允许用户通过定义新的客户端或服务器类来实现自定义算法，从而降低算法扩展的门槛。这使得研究者能够专注于算法的创新，而无需处理底层基础设施的复杂性。

4. **与时俱进**
**fluke**包含多种当前最先进的联邦学习算法和数据集，并且定期更新以引入最新的研究成果。这一特性确保了其在研究领域的适用性，同时也为用户提供了最新的工具支持。

5. **模拟环境**
通过模拟联邦学习环境，**fluke**将客户端与服务器之间的通信过程抽象为一个模拟通道。这种方式不仅避免了真实网络环境带来的复杂性，还允许用户专注于算法逻辑的实现，而不必处理实际数据传输的细节。

6. **高效性**
在模拟环境中，**fluke**展示了其在训练速度上的优势，尤其是在对比其他主流联邦学习框架（如Flower、FLUTE和PFLlib）时，其表现更为突出。这种高效性使得研究者能够在更短的时间内完成实验，从而加速算法的开发和优化。

### **fluke的架构概述**

**fluke**的架构设计旨在实现灵活性和模块化，使得用户能够轻松地进行扩展和修改。其主要模块包括：

- **data**：负责数据集的加载和数据分布管理，支持多种数据分割方式。
- **server**：定义了服务器端的逻辑，如模型聚合和广播。
- **client**：定义了客户端的逻辑，如本地训练和模型更新。
- **comm**：负责客户端与服务器之间的通信，通过模拟通道进行数据交换，同时支持通信成本的监控。
- **algorithms**：包含多个联邦学习算法，用户可以根据需要选择或扩展。
- **nets**：提供了一系列常用的神经网络模型，便于快速实验。
- **utils**：包含一些实用函数和类，如模型混合、中间数据表示获取等。
- **evaluation**：支持多种评估指标，如准确率、精确率、召回率和F1分数，便于模型性能的分析和比较。
- **config**：管理实验配置文件，使得用户能够灵活地调整实验参数。

通过这种模块化设计，**fluke**为研究者提供了一个清晰、易懂的框架，使其能够专注于算法的核心逻辑，而不是复杂的系统实现。

### **fluke的命令行接口（CLI）**

**fluke**的CLI是其运行联邦学习实验的最快方式。用户可以通过命令行启动四种类型的实验：

- **联邦学习（federation）**：运行一个集中式的联邦学习实验。
- **集中式学习（centralized）**：在完整数据集上进行集中式训练。
- **客户端独立学习（clients-only）**：每个客户端独立训练模型，并在本地测试集上进行评估。
- **实验扫描（sweep）**：通过一条命令运行多个实验，支持不同设置和算法的对比。

CLI的使用方式为：

```
fluke EXP_TYPE EXP_CFG ALG_CFG
```

其中，`EXP_TYPE`表示实验类型，`EXP_CFG`和`ALG_CFG`分别是实验配置文件和算法配置文件的路径。这种设计使得用户能够快速调整实验参数，而无需进行复杂的代码编写。

### **数据集与数据分布**

**fluke**内置了多个常用的数据集，如MNIST、EMNIST、SVHN、CIFAR-10、CIFAR-100、TinyImageNet、Fashion MNIST、FCUBE、FEMNIST和Shakespeare。这些数据集广泛应用于联邦学习研究，能够满足不同场景的需求。此外，用户也可以通过自定义函数加载自己的数据集。

在数据分布方面，**fluke**支持多种分布方式，包括：

- **IID（独立同分布）**：所有客户端的数据分布是相同的。
- **数量偏斜（quantity skew）**：每个客户端的数据样本数量随索引变化而指数衰减。
- **标签偏斜（label skew）**：标签分布遵循Dirichlet分布，其中参数β控制偏斜程度。
- **固定类别偏斜（quantity label skew）**：每个客户端的数据来自固定的类别。
- **病理类别偏斜（pathological label skew）**：每个客户端的数据来自少量但不固定的类别。

这些分布方式为研究者提供了丰富的实验选择，使得他们能够在不同的数据分布下测试算法的性能。

### **神经网络架构与相关功能**

**fluke**支持多种神经网络架构，用户可以使用自定义的PyTorch模型进行实验。为了方便用户，**fluke**提供了16种预定义的神经网络模型，这些模型在联邦学习文献中被广泛使用，并且能够覆盖所有支持的数据集。每个模型的结构设计使得用户能够轻松访问其编码器（encoder）和分类器（head），从而支持仅对模型部分进行训练的算法，如某些个性化联邦学习方法。

此外，**fluke.utils.model**模块中包含了一些实用函数，如模型混合（model mixing）和中间数据表示的获取。这些功能允许用户在不修改模型前向传播方法的前提下，获取模型各层的输出，为算法的实现提供了便利。

### **评估机制**

在联邦学习中，评估模型性能是至关重要的一步。**fluke**提供了多种评估方式，包括：

- **服务器端评估**：使用服务器上的保留测试集评估全局模型。
- **客户端端评估**：在客户端的本地测试集上评估模型性能，适用于服务器无法访问数据的场景。
- **客户端本地模型评估**：在服务器端的测试集上评估客户端的本地模型，便于比较不同模型在统一基准上的表现。

**fluke.evaluation.Evaluator**类支持多种评估指标，如准确率、精确率、召回率和F1分数（包括微平均和宏平均）。用户还可以通过继承该类来实现自定义的评估指标。

### **日志与监控**

**fluke**内置了一个日志系统，用于跟踪训练过程和算法性能。基础日志器（`fluke.utils.log.Log`）使用`rich`库进行格式化输出，使得训练过程的监控更加直观。日志系统采用观察者模式（Observer pattern），使得服务器、客户端和通信通道能够作为被观察对象，而日志器作为观察者。这样，研究者可以轻松地监控关键事件，如每轮训练的开始和结束，以及模型更新的完成。

此外，**fluke**支持远程日志器，如Weights & Biases、ClearML和TensorBoard，用户只需在实验配置文件中指定日志器类型和相关参数即可。这种方式使得研究者能够在不同的监控平台上进行实验记录和分析，而不必修改代码。

### **通信抽象**

在**fluke**中，客户端和服务器之间的通信是通过模拟通道（`fluke.comm.Channel`）实现的。这种方式避免了直接方法调用，使得通信机制与算法逻辑分离。模拟通道不仅支持通信成本的监控，还能够模拟不同的网络条件，如慢速或不可靠的网络环境。此外，**fluke**还支持扩展，使得用户能够实现替代的通信协议，如gossip或peer-to-peer通信。

### **内存管理**

**fluke**默认将所有模型存储在内存中，但在客户端数量较多或模型较大的情况下，可能会导致内存不足。为此，**fluke**提供了“交换”（swapping）机制，将不活跃的模型存储在磁盘上，从而减少内存占用。当交换功能启用时，内存使用量会保持在较低水平，而不会随训练轮次的增加而显著上升。然而，交换功能会带来一定的训练延迟，因为需要进行磁盘读写操作。

在使用GPU的情况下，**fluke**会将当前训练的客户端模型加载到GPU内存中，而全局模型和其他客户端模型则保留在RAM或磁盘上。这种设计减少了GPU内存的使用，使得研究者能够在有限的硬件资源下运行更多客户端。

### **联邦学习算法**

**fluke**提供了36种联邦学习算法，涵盖了从经典算法（如FedAvg）到新兴算法（如FedPer、FedLC、FedLD等）。这些算法均支持个性化联邦学习（PFL）和差分隐私（Differential Privacy, DP），使得研究者能够根据需求选择不同的算法进行实验。在算法实现方面，**fluke**的设计使得用户能够轻松地进行扩展，只需定义新的客户端或服务器类即可。

### **单机并行性**

**fluke**虽然主要设计用于单机运行，但也支持多核CPU和GPU的并行计算。其并行方式包括：

- **单客户端 - 多CPU**：使用多个CPU核心训练一个客户端模型。
- **单客户端 - 单GPU**：使用一个GPU训练一个客户端模型。
- **单客户端 - 多GPU**：使用多个GPU训练一个客户端模型，通过`torch.nn.DataParallel`实现。
- **多客户端 - 多GPU**：每个客户端使用一个GPU进行训练，通过`torch.multiprocessing`实现。

这些并行方式使得**fluke**能够在不同的硬件配置下运行，从而提高训练效率。

### **可扩展性与性能比较**

在可扩展性方面，**fluke**表现良好，能够处理大量客户端而不显著增加训练时间。通过实验，我们发现**fluke**在模拟环境中能够快速扩展，尤其是在内存管理上，通过交换机制有效控制内存占用。

在性能方面，**fluke**与主流联邦学习框架（如Flower、FLUTE和PFLlib）进行了对比。结果显示，**fluke**在训练速度和实验设置的灵活性方面优于其他框架。在MNIST和CIFAR-10数据集上的实验表明，**fluke**能够显著减少训练时间，尤其是在使用GPU的情况下。此外，**fluke**在数据准备和模型评估方面也表现出色，为研究者提供了高效的实验工具。

### **实际应用场景**

**fluke**的主要应用包括快速实验和算法原型设计。通过其模块化设计和灵活的配置选项，研究者可以在短时间内完成实验，并且能够轻松地调整参数以测试不同的算法。例如，在联邦学习的基准测试中，**fluke**允许用户比较多种算法在相同数据集和实验设置下的表现，从而加速算法的优化过程。

在实现新算法方面，**fluke**提供了一套清晰的API，使得用户能够通过定义新的客户端和服务器类来扩展算法。这一设计降低了实现新算法的难度，使得研究者能够专注于算法的核心逻辑，而不必处理底层通信和数据管理的细节。

### **未来发展方向**

尽管**fluke**已经具备一定的功能，但其仍处于发展的初期阶段，未来有许多改进和扩展的机会。研究团队计划继续集成最新的联邦学习算法，并提升整体效率。此外，**fluke**的架构设计使得其能够轻松扩展以支持垂直联邦学习（Vertical FL）和去中心化联邦学习（Decentralized FL）等新范式。同时，研究团队也计划引入公平性和可解释性相关的指标和数据集，以满足联邦学习研究中日益增长的需求。

在API方面，**fluke**将不断优化，使其更易于实现模型异构联邦学习（Model Heterogeneity in FL）。此外，研究团队还计划在通信抽象的基础上，实现基于gossip的通信协议，以支持更复杂的网络环境。

### **总结**

**fluke**是一个专为联邦学习研究设计的轻量级工具包，旨在简化算法开发和实验流程。通过其模块化设计、丰富的数据集和算法支持、高效的训练速度以及易于扩展的特性，**fluke**为研究者提供了一个理想的平台，使得他们能够在不依赖复杂基础设施的情况下快速测试新想法。此外，**fluke**的模拟环境和通信抽象设计，使得其在联邦学习研究中具有较高的适用性和灵活性。

在实际应用中，**fluke**已经用于多个联邦学习项目，并在学术会议中得到了测试和验证。随着联邦学习研究的不断深入，**fluke**有望成为该领域的重要工具，帮助研究者更快地实现算法创新，推动联邦学习技术的发展。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部