PSCD:一种用于加密分布式数据集上深度神经网络结构约束缓解的隐私保护框架

时间:2026年1月21日
来源:Future Generation Computer Systems

编辑推荐:

隐私保护深度学习框架PSCD基于功能加密,整合安全聚合模块SAM、查询控制模块QCM和隐私保护训练机制PPTM,通过FM Sketch动态约束加密操作并利用Dropout优化网络结构,有效抵御ESD攻击和半诚实攻击,在保持模型精度前提下提升48.5%运算效率并降低38.9%通信开销。

广告
   X   

张宇浩|赵薇薇|胡长辉
海南大学网络空间安全学院,海口,570228,中国

摘要

深度神经网络(DNNs)的普及推动了下一代系统中分布式节点间协作数据处理的需求。这种模式对分布式数据隐私构成了潜在威胁,因此需要开发更可靠的隐私保护机器学习(PPML)解决方案。功能加密(FE)由于其独特的优势,为PPML提供了一种新的范式。不幸的是,现有基于FE的方案中的隐私要求对允许的神经架构施加了先验约束,这与模型的表达能力之间存在根本性矛盾。为了缩小这一差距,我们设计了一个基于FE的隐私保护DNN框架(PSCD),通过整合三个独立模块来减轻对模型结构的约束。具体来说,我们首先设计了一个具有FE的安全聚合模块SAM,以确保本地数据上传的保密性。然后,我们引入了FM Sketch来提出一个查询控制模块QCM,以控制云服务器查询密文向量的次数。最后,我们开发了一个隐私保护训练机制PPTM,该机制结合了Dropout来灵活调整网络结构,并同步增强模型的鲁棒性。形式化安全分析证明PSCD能够抵御半诚实攻击和共谋攻击。在真实世界数据集上的实验表明,与基准PPML方案相比,PSCD在操作效率上至少提高了48.5%,在通信开销上减少了38.9%,同时保持了与明文DNN相当的模型准确性。

引言

人工智能的快速发展推动了深度神经网络(DNNs)在多模态异常检测[2]、面部识别[3]和自然语言处理[4]方面的突破。模型的泛化能力通常与其训练数据的规模和多样性密切相关。然而,单源数据集往往缺乏支持高性能模型所需的规模和代表性。因此,机器学习(ML)任务越来越多地迁移到基于云的分布式系统中,在这些系统中,多源数据融合技术用于构建高精度模型(即ML即服务,MLaaS)。例如,Facebook和Instagram等社交平台定期收集大量用户行为数据,包括点赞、评论和浏览记录,以构建个性化内容推荐系统[5]。
虽然这种模式已被证明是成功的,但数据的直接共享可能对数据所有者构成严重威胁,因为数据通常包含敏感信息[6]。此外,法规(例如)欧盟通用数据保护条例(GDPR)[7]和加州消费者隐私法(CCPA)[8]对敏感数据的收集和使用施加了更严格的限制。在这种背景下,如何在保护数据隐私的同时有效构建DNN模型已成为一个亟待解决的挑战。
在隐私保护机器学习(PPML)中,已经有许多尝试来解决上述问题。最普遍的方法可以分为两大类:
i) 本地训练和在线聚合。这一范式的代表是联邦学习(FL)[9],其中每个数据所有者独立训练本地模型,并采用隐私增强技术,包括安全聚合(SA)[10]和差分隐私(DP)[11],以确保本地模型的保密性。FL在本地维护数据和模型更新,解决了数据孤岛问题,并有效降低了数据泄露的风险。然而,仍有一些挑战需要克服。其中一个挑战是基于SA的解决方案难以抵抗云服务器对全局模型的推理攻击[12]、[13]、[14]。此外,基于DP的解决方案必须在数据隐私和准确性之间取得平衡。此外,FL固有的“落后效应”[15]会阻碍整个过程,导致系统延迟和资源利用不足。
ii) 隐私保护的非交互式学习。这种模式通常使用加密工具,包括同态加密(HE)[16]和安全多方计算(MPC)[17]来保持数据保密性。例如,基于HE的方案使云服务器能够在密文域中训练模型,从而确保本地数据的强大隐私保障[18]、[19]、[20]。然而,这些解决方案的计算效率可能成为性能瓶颈。在基于MPC的方法中,每一轮模型更新都在云服务器之间进行交互,可能会提高训练效率,但多方通信的高频率会对网络造成显著负担[21]、[22]、[23]。
挑战功能加密(FE)[24]、[25]的出现为PPML提供了一种新的范式。基于FE的方案[26]、[27]、[28]以密文形式保护输入数据,同时允许对特定输出结果进行明文计算,从而提高了训练效率。不幸的是,这种范式也引入了新的安全挑战,如ESD攻击(见定义1)。一种直接有效的对策是施加网络结构约束(定义2)。然而,这种方法在某种程度上可能会损害模型的泛化能力和鲁棒性[29]。
本研究为了解决这些挑战,我们提出了一种基于FE的隐私保护DNN方法,称为PSCD,它可以减轻针对ESD攻击的结构限制。所提出的安全聚合模块SAM和查询控制模块QCM的结合使数据所有者能够安全地将数据外包给云服务器。此外,与Dropout一起设计的隐私保护训练机制PPTM确保训练过程符合隐私约束并减小了网络规模。
贡献PSCD的主要贡献如下:
  • 动态受限的隐私保护。PSCD使用FM Sketch动态限制密文操作,实现实时隐私预算监控,同时减轻传统基于FE的方案中的数据重构风险。
    • 灵活的深度学习框架。通过集成SAM和Dropout,我们设计了一个灵活的隐私保护训练机制PPTM。PSCD能够保护数据并灵活配置神经网络结构,从而提高模型的泛化能力。
    • 高效且无损失。PSCD结合了Dropout来简化网络架构,减少了加密数据的体积并提高了训练效率。此外,PSCD在明文域中实现了与原始激活函数几乎相同的模型准确性,而无需多项式近似。

    部分片段

    本地训练和在线聚合

    在许多PPML场景中,本地参数通过中央服务器进行在线聚合以生成全局模型,这一范式最典型的体现是联邦学习[32]。FedAvg和FedSGD[33]作为FL的经典算法受到了广泛关注。然而,这些方法容易受到推理攻击和投毒攻击的影响,影响数据的安全性和模型的性能。为了解决这个问题,已经提出了许多安全协议[12]、[13]

    预备知识

    在本节中,我们将介绍设计该方案所需的预备知识。

    系统模型

    我们在PSCD框架中定义了三种实体:i) 数据所有者(DOs);ii) 云服务提供商(iii) 第三方机构()。如图2所示,每个实体的行为如下:
  • 数据所有者DOs
    是拥有私有数据的m实体,他们希望共享数据以共同构建DNN模型。DOs需要将数据加密为安全版本以确保隐私,并在上传数据后将其保持离线。
    • 云服务提供商

    PSCD概述

    如2.3节所讨论的,现有基于FE的方案面临的主要挑战是CSP通过足够的向量内积构建线性方程组来发起ESD攻击以推断真实数据。为了克服这些挑战,我们设计了一个可以利用Dropout和FM Sketch的隐私保护学习结构,从而限制CSP构建有效的方程组。具体来说,PSCD包括以下三个机制:
    (i) 安全聚合

    安全性分析

    在本节中,我们分析了PSCD的安全性。如4.2节所定义的,我们考虑了两种类型的对手:i) 半诚实对手(定义3);共谋对手(定义4)。表2总结了我们的框架所缓解的攻击类型及其相应的防御措施。我们通过模拟框架[39]证明了PSCD的数据安全性,这一框架得到了以下安全定义和引理的支持。

    定义5

    (PSCD的安全性[40]。在半诚实

    性能分析

    我们首先分析了PSCD的理论复杂性。然后,我们通过在三个公共数据集上训练DNN模型来评估其性能,并将其与现有的流行方案进行比较。

    结论

    我们提出了一种基于功能加密的隐私保护DNN训练框架PSCD,用于缓解结构约束。得益于Dropout和FM Sketch技术,PSCD克服了网络结构在面对ESD攻击时的局限性,同时利用了FE密码系统的加密优势。我们采用模块化设计方法,将模型训练过程分解为三个独立机制。

    CRediT作者贡献声明

    张宇浩:撰写——原始草案,软件,方法论。赵薇薇:撰写——原始草案,验证,形式分析,概念化。胡长辉:撰写——审阅与编辑,资金获取,概念化。

    CRediT作者贡献声明

    张宇浩:撰写——原始草案,软件,方法论。赵薇薇:撰写——原始草案,验证,形式分析,概念化。胡长辉:撰写——审阅与编辑,资金获取,概念化。

    利益冲突声明作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有