DC-PFL：一种基于动态聚类的个性化联邦学习方法，用于人类活动识别

时间：2025年11月22日

来源：Engineering Science and Technology, an International Journal

编辑推荐：

动态聚类个性化联邦学习框架DC-PFL通过统计模型参数特征实现动态聚类，有效缓解非独立同分布数据下的性能衰减问题，在IMU、HARBox等四类HAR数据集上验证了其优于FedCHAR等基线方法10%-20%的准确率及更快的收敛速度。

人类活动识别（HAR）在广泛的应用场景中扮演着至关重要的角色，包括普适计算、医疗健康和人机交互。通过准确地解析运动数据，HAR为智能决策系统提供了关键支持。然而，传统的集中式深度学习方法在处理HAR任务时面临数据隐私的挑战，因为它们需要将用户的数据上传至中心服务器进行训练，这可能会暴露敏感信息，增加隐私泄露的风险。为此，联邦学习（FL）作为一种分布式学习范式，被提出以解决数据隐私问题。FL允许客户端在本地进行模型训练，并仅共享模型参数，从而避免了原始数据的直接传输，保护了用户隐私。然而，FL在实际应用中仍面临挑战，特别是在HAR任务中，由于用户行为、传感器模态和环境条件的多样性，客户端的数据分布通常是非独立同分布（Non-IID）的，这可能导致模型更新的偏差、泛化能力下降和收敛速度缓慢。

为了解决上述问题，个性化联邦学习（PFL）被提出，它通过调整全局模型以适应每个客户端的个性化需求，提高模型的泛化能力和个性化效果。然而，大多数现有的PFL方法依赖于静态的聚类策略，这限制了它们在面对动态变化的客户端数据分布时的适应性。本文提出了一种名为DC-PFL的动态聚类方法，它通过使用轻量级的统计特征，如平均峰值频率（APF）、百分位数和中位数绝对偏差（MAD），对客户端进行每轮动态聚类，从而在保持隐私的同时，实现更高效和准确的相似度评估。这种设计不仅提高了模型的收敛速度，还增强了其对Non-IID数据的鲁棒性，使DC-PFL在实际应用中具有更高的适应性和性能表现。

在本文中，我们首先评估了多种统计特征，以确定哪些特征最适合用于客户端相似度计算。通过对比分析，我们发现APF、百分位数和MAD在多个数据集上表现最佳，尤其是在IMU和WISDM数据集上，它们分别达到了99.26%和95.37%的高准确率。这些统计特征不仅在计算效率上具有优势，还能够有效捕捉数据的分布特征，减少对异常值的敏感性，从而提升模型的鲁棒性和泛化能力。基于这些特征，我们构建了一个动态聚类机制，使模型能够在每一轮通信中根据最新的客户端模型参数进行重新聚类，从而确保聚类结构随着训练过程的演进而不断优化。

为了验证DC-PFL的有效性，我们将其与几种现有的联邦学习方法进行了比较，包括FedCHAR、Krum和FedPA。实验结果显示，DC-PFL在多个数据集上都显著优于这些方法，特别是在准确率和收敛速度方面。例如，在IMU数据集上，DC-PFL使用百分位数特征时，准确率达到99.26%，而FedCHAR的准确率仅为98.54%。此外，DC-PFL在更少的通信轮次内就能达到较高的准确率，这表明其在通信效率方面具有明显优势。对于HARBox和UWB数据集，DC-PFL同样表现优异，且其在不同聚类算法下的性能提升更为显著。

此外，我们还分析了不同聚类数量对DC-PFL性能的影响。实验表明，聚类数量的选择对模型的准确率和泛化能力具有重要影响。在IMU和HARBox数据集上，较少的聚类数量能够提高准确率，而在WISDM和UWB数据集上，较多的聚类数量有助于保持较高的性能。这说明DC-PFL需要根据具体的数据集特性，灵活调整聚类数量，以实现最佳的模型效果。同时，我们还对DC-PFL的公平性进行了分析，发现通过在统计特征空间中对客户端进行聚类，可以有效减少由于数据分布不均导致的性能差异，从而在保证高准确率的同时，提升模型的公平性。

在计算复杂度方面，我们评估了DC-PFL与FedCHAR及非聚类联邦学习方法（如FedAvg和FedPA）的FLOPs（浮点运算次数）。结果表明，DC-PFL和FedCHAR的计算复杂度相近，分别为5 MFLOPs。与非聚类方法相比，DC-PFL的聚类机制仅略微增加了计算负担，但显著提升了模型性能，这说明其在实际应用中的可行性。通过引入动态聚类机制，DC-PFL能够在不增加显著计算成本的情况下，实现更高的准确率和更优的收敛速度。

本文的研究表明，DC-PFL在HAR任务中具有显著的优势。其动态聚类机制能够有效适应客户端数据分布的变化，提升模型的泛化能力和收敛效率。此外，DC-PFL在保持隐私的同时，通过使用统计特征进行相似度计算，避免了对原始数据和梯度的依赖，从而降低了数据传输的开销。这些特性使DC-PFL成为一种适用于实际联邦学习环境的高效且实用的方法。未来的研究可以进一步探索更复杂的特征选择机制，如结合多个统计特征或使用学习的嵌入方法，以提高模型的表示能力和鲁棒性。同时，可以引入更强大的鲁棒性机制，如鲁棒聚类、异常检测和差分隐私，以增强DC-PFL在对抗攻击中的防御能力。此外，自动确定聚类数量的方法，如使用肘部方法或轮廓系数，可以进一步优化聚类效果，提升模型的适应性。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部