面向目标的数据匿名化(TA_DA):一种提升数据分析效用的隐私保护新方法

时间:2025年11月20日
来源:IEEE Transactions on Privacy

编辑推荐:

本文针对数据共享与隐私保护的矛盾,提出了一种目标感知的数据匿名化方法TA_DA。该方法在传统匿名化(提供k-匿名性和l-多样性保证)之前,根据下游数据分析任务(分类或聚类)对数据进行分组,从而在保护隐私的同时,最大限度地保留了数据对特定机器学习任务的效用。实验结果表明,TA_DA能有效减轻匿名化对分类和聚类性能的负面影响,为多数据控制方场景下的安全数据共享与分析提供了新思路。

广告
   X   

在当今这个数据驱动的社会,大数据分析、机器学习等术语已深入人心。从商业智能到休闲娱乐,海量数据的可用性及其背后知识的提取能力,构成了我们智能社会的核心,带来了巨大的利益。然而,随着数据贡献和共享场景的日益增多,一个严峻的挑战也随之浮现:原始数据往往包含个人身份、敏感信息或商业机密,不能随意共享。无论是出于商业规则、个人意愿,还是像欧盟《通用数据保护条例》(GDPR)和美国《加州消费者隐私法案》(CCPA)这样的隐私法规,都要求在数据发布或共享前对其进行“净化”处理,即数据匿名化。
不幸的是,旨在保护隐私的数据匿名化过程,不可避免地会导致信息损失,从而对下游的数据分析任务(如分类、聚类)的性能产生显著的负面影响。这就形成了隐私保护与数据效用之间众所周知的紧张关系。尤其是在多个数据控制方共同为某个数据分析任务贡献数据的场景下(如图1所示),每个控制方独立进行数据匿名化,如何确保匿名化后的数据集合仍能有效支持全局的分析任务,成为一个关键问题。
为了解决这一难题,由Sergio Barezzani、Sabrina De Capitani di Vimercati、Sara Foresti、Valerio Ghirimoldi和Pierangela Samarati(Fellow, IEEE)组成的研究团队,在《IEEE Transactions on Privacy》上发表了题为“TA_DA: Target-Aware Data Anonymization”的研究论文。他们提出了一种名为TA_DA(目标感知数据匿名化)的新方法。该方法的核心思想并非取代现有的匿名化解决方案,而是在匿名化过程之前,根据下游数据分析任务的需求,对数据进行预处理。TA_DA不改变匿名化本身(仍基于泛化提供k-匿名性和l-多样性保证),而是通过“目标感知”的分组策略,限制匿名化对那些对下游任务至关重要的属性和值的影响。
具体来说,TA_DA方法包含两个核心步骤(如图3所示):
  1. 1.
    目标感知分区:根据下游任务是分类还是聚类,采用不同的策略将原始数据集中的元组进行分组。
    • 对于分类任务:利用决策树(如C4.5算法)对数据进行分区。该决策树仅使用准标识符属性进行构建,并以分类的标签属性为指导。其目标是识别出对标签预测最重要的准标识符属性,并将具有相似预测属性值的元组聚集到同一个叶节点(即分组)中。这样,后续在组内进行匿名化时,对这些关键属性的泛化影响会被限制在最小范围。为确保匿名化可行,构建的决策树是(k, ℓ)-合规的,即每个叶节点代表的元组数量至少为k,并且包含至少ℓ个不同的敏感属性值。
    • 对于聚类任务:采用聚类算法(如约束K均值)对数据进行分区。该算法考虑除敏感属性外的所有属性,以发现数据中隐藏的模式。其目标是将相似的元组聚集到同一个簇中。同样,通过后续处理和合并,确保最终产生的每个簇是(k, ℓ)-合规的,即包含至少k个元组和至少ℓ个不同的敏感属性值。
  2. 2.
    组内匿名化:对第一步产生的每个分组(决策树的叶节点或聚类产生的簇)独立地应用经典的匿名化算法(如扩展支持l-多样性的Mondrian算法)。由于每个分组内的元组在准标识符属性上已经非常相似,泛化操作对数据原始特性的改变较小,从而最大程度地保留了对下游分类或聚类任务有用的信息。由于每个分组都满足(k, ℓ)-匿名性,它们并集后的整个数据集自然也满足(k, ℓ)-匿名性。
为了验证TA_DA的有效性,研究团队在三个公开的真实世界数据集(Bank, Nursery, Customer_segmentation)上进行了广泛的实验,模拟了多数据控制方的场景。他们将TA_DA与传统的匿名化方法(Anon)进行了比较,评估指标包括分类任务的准确率和F1macro分数,以及聚类任务的调整兰德指数(ARI)和标准化互信息(NMI)。
实验结果表明,在不同k和ℓ取值下,TA_DA方法在绝大多数情况下都优于或至少等同于传统的匿名化方法。对于分类任务,随着k和ℓ值的增大(意味着隐私保护要求更严格,泛化程度更高),两种匿名化方法下的分类器性能都会下降,但TA_DA方法的性能下降幅度更小,其准确率和F1macro分数始终高于或接近传统方法。对于聚类任务,TA_DA方法得到的匿名化数据所产生的聚类结果,与原始数据聚类结果的相似度(ARI和NMI)也显著高于传统方法。这些结果强有力地证实了TA_DA在平衡隐私保护与数据效用方面的优势。
该研究也对TA_DA的一些设计方面进行了讨论,例如分类属性在聚类中的处理方式、保证l-多样性的其他可能方法,以及参数设置对结果的影响。研究者指出,不存在一种“一刀切”的最佳方案,需要根据具体的数据集、任务目标和场景特点来仔细调整TA_DA的设计选择和参数。
总之,这项研究成功地提出并验证了一种面向目标的数据匿名化框架TA_DA。它通过将下游数据分析任务的需求融入匿名化过程,巧妙地缓解了隐私保护与数据效用之间的固有矛盾。这种方法为在遵守严格隐私法规的前提下,安全地共享和利用多来源数据进行分析挖掘提供了切实可行的技术路径,具有重要的理论意义和广泛的应用前景。未来的工作可以考虑融入其他隐私模型(如t-接近性、差分隐私)、拓展到其他数据分析任务(如回归),以及研究更复杂的场景(如类别极度不平衡的数据集)。
主要技术方法概览
本研究采用的目标感知数据匿名化(TA_DA)方法主要基于以下关键技术:1) 针对分类任务,使用C4.5算法构建(k, ℓ)-合规决策树进行目标感知分区;2) 针对聚类任务,采用约束K-means算法(确保最小簇大小为k)并进行后处理合并以保证(k, ℓ)-合规性,完成目标感知分区;3) 对每个分区独立应用经过扩展以支持-多样性的Mondrian多维匿名化算法,实现组内匿名化。实验数据来源于公开的真实数据集(Bank, Nursery, Customer_segmentation),并模拟了多数据控制方场景。
研究结果
实验结果(分类)
在分类任务的实验中,TA_DA方法在Bank、Nursery和Customer_segmentation三个数据集上, across 不同的k(2至50)和ℓ(1至3)值,其分类器性能(准确率和F1macro分数) consistently 优于或等同于传统匿名化(Anon)方法。随着k和ℓ增大,信息损失增加,所有方法性能均下降,但TA_DA的性能下降更缓慢,显示出其能更好地保留对分类任务关键的信息。例如,在Bank数据集上,当k=50, ℓ=2时,TA_DA的准确率显著高于Anon。F1macro分数也呈现相似趋势,表明TA_DA对多类分类问题同样有效。
实验结果(聚类)
在聚类任务的实验中,以原始数据聚类结果为基准,比较匿名化后数据的聚类效果。TA_DA方法在三个数据集上所得的调整兰德指数(ARI)和标准化互信息(NMI)均 consistently 高于传统Anon方法。这表明,经过TA_DA匿名化后的数据,其聚类结果与原始数据的聚类结果相似度更高,即匿名化过程对数据内在模式的破坏更小。例如,在Customer_segmentation数据集上,TA_DA的ARI和NMI值在不同k和ℓ下均明显高于Anon。
结论与意义
本研究提出TA_DA方法,有效解决了多数据控制方场景下,数据匿名化与下游数据分析任务效用之间的平衡难题。通过目标感知的分区策略(基于分类任务构建决策树或基于聚类任务进行聚类),使后续的匿名化操作(基于Mondrian的泛化)对数据关键特征的破坏最小化。实验证明,TA_DA能显著提升匿名化数据在分类和聚类任务上的性能,优于传统匿名化方法。这项工作为在严格隐私保护(k-匿名性、l-多样性)前提下进行有效的数据共享与分析提供了新颖且实用的解决方案,具有重要的理论价值和实际应用前景。研究也指出了未来可探索的方向,如集成其他隐私模型、应用于更广泛的分析任务以及优化对分类属性和不平衡数据的处理。

生物通微信公众号
微信
新浪微博


生物通 版权所有