人工智能的快速发展推动了深度神经网络(DNNs)在多模态异常检测[2]、面部识别[3]和自然语言处理[4]方面的突破。模型的泛化能力通常与其训练数据的规模和多样性密切相关。然而,单源数据集往往缺乏支持高性能模型所需的规模和代表性。因此,机器学习(ML)任务越来越多地迁移到基于云的分布式系统中,在这些系统中,多源数据融合技术用于构建高精度模型(即ML即服务,MLaaS)。例如,Facebook和Instagram等社交平台定期收集大量用户行为数据,包括点赞、评论和浏览记录,以构建个性化内容推荐系统[5]。
虽然这种模式已被证明是成功的,但数据的直接共享可能对数据所有者构成严重威胁,因为数据通常包含敏感信息[6]。此外,法规(例如)欧盟通用数据保护条例(GDPR)[7]和加州消费者隐私法(CCPA)[8]对敏感数据的收集和使用施加了更严格的限制。在这种背景下,如何在保护数据隐私的同时有效构建DNN模型已成为一个亟待解决的挑战。
在隐私保护机器学习(PPML)中,已经有许多尝试来解决上述问题。最普遍的方法可以分为两大类:
i) 本地训练和在线聚合。这一范式的代表是联邦学习(FL)[9],其中每个数据所有者独立训练本地模型,并采用隐私增强技术,包括安全聚合(SA)[10]和差分隐私(DP)[11],以确保本地模型的保密性。FL在本地维护数据和模型更新,解决了数据孤岛问题,并有效降低了数据泄露的风险。然而,仍有一些挑战需要克服。其中一个挑战是基于SA的解决方案难以抵抗云服务器对全局模型的推理攻击[12]、[13]、[14]。此外,基于DP的解决方案必须在数据隐私和准确性之间取得平衡。此外,FL固有的“落后效应”[15]会阻碍整个过程,导致系统延迟和资源利用不足。
ii) 隐私保护的非交互式学习。这种模式通常使用加密工具,包括同态加密(HE)[16]和安全多方计算(MPC)[17]来保持数据保密性。例如,基于HE的方案使云服务器能够在密文域中训练模型,从而确保本地数据的强大隐私保障[18]、[19]、[20]。然而,这些解决方案的计算效率可能成为性能瓶颈。在基于MPC的方法中,每一轮模型更新都在云服务器之间进行交互,可能会提高训练效率,但多方通信的高频率会对网络造成显著负担[21]、[22]、[23]。
挑战功能加密(FE)[24]、[25]的出现为PPML提供了一种新的范式。基于FE的方案[26]、[27]、[28]以密文形式保护输入数据,同时允许对特定输出结果进行明文计算,从而提高了训练效率。不幸的是,这种范式也引入了新的安全挑战,如ESD攻击(见定义1)。一种直接有效的对策是施加网络结构约束(定义2)。然而,这种方法在某种程度上可能会损害模型的泛化能力和鲁棒性[29]。
本研究为了解决这些挑战,我们提出了一种基于FE的隐私保护DNN方法,称为PSCD,它可以减轻针对ESD攻击的结构限制。所提出的安全聚合模块SAM和查询控制模块QCM的结合使数据所有者能够安全地将数据外包给云服务器。此外,与Dropout一起设计的隐私保护训练机制PPTM确保训练过程符合隐私约束并减小了网络规模。
贡献PSCD的主要贡献如下:
•动态受限的隐私保护。PSCD使用FM Sketch动态限制密文操作,实现实时隐私预算监控,同时减轻传统基于FE的方案中的数据重构风险。
- •
灵活的深度学习框架。通过集成SAM和Dropout,我们设计了一个灵活的隐私保护训练机制PPTM。PSCD能够保护数据并灵活配置神经网络结构,从而提高模型的泛化能力。
- •
高效且无损失。PSCD结合了Dropout来简化网络架构,减少了加密数据的体积并提高了训练效率。此外,PSCD在明文域中实现了与原始激活函数几乎相同的模型准确性,而无需多项式近似。