编辑推荐:
针对联邦学习(FL)中差分隐私(DP)噪声导致模型精度下降及数据异构性(DH)加剧收敛困难的挑战,山西师范大学团队提出采样-记忆机制FedSam。该研究通过客户端聚类采样缓解DH影响,结合历史模型记忆降低DP噪声扰动,在医疗数据集实现95.03%分类准确率,较传统DP-FedAvg提升3.29%,为隐私保护与模型性能的平衡提供创新解决方案。
在医疗人工智能快速发展的今天,XrayGPT和MedGPT等生成式预训练模型需要海量敏感医疗数据进行训练,但直接使用患者数据会引发严重隐私问题。联邦学习(FL)虽能通过分布式训练避免原始数据共享,却面临两大困境:攻击者可能从客户端上传的模型参数中反推隐私信息;不同医疗机构的数据分布差异(数据异构性,DH)会导致全局模型性能下降。现有方案如差分隐私(DP)虽能通过添加噪声保护隐私,但会进一步降低模型准确率——这种隐私保护与模型效能的矛盾已成为制约医疗AI发展的关键瓶颈。
山西师范大学的研究团队在《Computer Standards》发表的研究中,创新性地提出FedSam机制。该方案包含两大核心技术:1)基于客户端模型相似性的聚类采样策略,从源头缓解DH影响;2)引入历史模型记忆的聚合方法,通过加权融合多轮模型更新来抵消DP噪声扰动。研究采用真实医疗数据集验证,结果显示FedSam在相同隐私预算(ε=2)下达到95.03%分类准确率,显著优于传统DP-FedAvg的91.74%,且无需客户端修改本地训练流程。
关键技术方法:
研究团队采用联邦学习框架,在服务器端部署FedSam机制。通过计算客户端模型参数相似度实现动态聚类采样(Cluster Sampling),并设计记忆队列存储历史全局模型(Memory Mechanism)。实验使用4个标准医疗数据集,对比DP-FedAvg和LDP-FL基线方法,评估不同隐私参数α下的性能表现。
研究结果:
结论与意义:
该研究首次实现DP噪声抑制与DH缓解的协同优化,其创新性体现在:1)服务器端优化架构避免干扰客户端本地训练;2)通过模型演化连续性分析证明FedSam的收敛界优于传统方法;3)为医疗FL应用提供即插即用解决方案。局限性在于对极端非独立同分布(non-IID)数据的适应性仍需提升。未来工作将探索动态隐私预算分配机制,进一步推动隐私保护医疗AI的发展。
生物通 版权所有