在数字化浪潮席卷全球的今天,人工智能(AI)技术,特别是生成式AI和大语言模型(LLMs),正在以前所未有的速度重塑各行各业。然而,这股强大的技术力量也带来了一系列复杂的数据保护挑战。用Meta/Facebook的话来说,AI与数据处理规范之间的关系是“复杂的”。随着欧盟《人工智能法案》(AI Act)的出台,这一关系变得更加盘根错节,为开发者、部署者和监管者都带来了新的难题。当AI模型在海量数据(其中不可避免地包含个人信息)上进行训练时,这些数据是否真的“消失”在了模型的数学参数中?还是说,模型本身变成了一个潜在的个人信息“存储器”?开发者在收集和利用这些数据时,能否以“合法利益”作为其法律依据?如果一个模型不幸使用了非法获取的数据进行训练,其后续的部署和使用是否会受到“污染”?更重要的是,我们如何判断一个训练完成的AI模型是否真正做到了“匿名”,从而可以规避严格的数据保护法规?
为了解答这些悬而未决的问题,欧盟内部的主要数据保护机构发布了一系列文件。其中,欧洲数据保护委员会(EDPB)于2024年发布的“关于AI模型中数据保护方面的第28/2024号意见”尤为关键。这份意见书旨在为AI与《通用数据保护条例》(GDPR)之间模糊的边界地带带来一丝曙光。本研究论文,即Vera Lúcia Raposo撰写的《The AI Gospel according to the EDPB–An overview of opinion 28/2024 on data protection aspects in AI models》,正是对这份官方意见的深度解读和批判性分析。论文试图梳理并阐明EDPB的论证逻辑,同时对其中的一些主张提出了批判性见解,旨在以更清晰、更连贯的方式呈现当前AI相关数据保护领域的前沿发展与监管思路。该文发表在《Computer Law》期刊上。
本研究主要基于对EDPB第28/2024号意见的文本分析、法律解释和批判性评估。研究将EDPB的意见置于AI数据保护的最新发展背景下进行解读,并引用了欧盟法院(CJEU)的相关判例、成员国数据保护机构(如意大利Garante、法国CNIL)的实践,以及现有关于合法利益、匿名化技术的指导文件(如WP29第05/2014号意见)作为分析的支撑。研究还涉及对AI模型生命周期、隐私攻击类型(如模型反转攻击、成员推理攻击)和隐私增强技术(如差分隐私、联邦学习)的技术性概念分析,以评估EDPB观点在技术可行性方面的依据。
1. 引言
人工智能与数据保护规范之间的关系本质上是复杂的,而欧盟《人工智能法案》的引入使这一现实进一步复杂化。包括EDPB在内的多个机构和当局已发布多份文件探讨AI与数据保护的交叉点。EDPB的第28/2024号意见分析了与AI模型中个人数据处理相关的数据保护问题,旨在澄清这些问题。本论文旨在对这些指南进行背景化和批判性分析,结合AI相关数据保护的当代发展进行解读。
2. 事实背景
2024年9月,爱尔兰数据保护委员会(DPC)援引GDPR第64(2)条的权力,就AI模型开发和使用中个人数据的使用向EDPB寻求指导。DPC提交了四个关键问题供EDPB审议,涉及AI模型在开发和部署后是否应被视为持续处理个人数据、如何验证将“合法利益”作为处理个人数据的法律依据、训练阶段结束后如何为此辩护,以及使用非法处理的个人数据构建、更新或开发AI模型的影响。EDPB因此发布了第28/2024号意见,详细审查了与AI背景下使用个人数据相关的特定数据保护问题。
3. AI模型与数据,一种复杂的关系
AI模型的生命周期通常分为开发和部署两个关键阶段。某些AI模型(如生成式AI,特别是大语言模型)明确设计用于处理和提供与训练中使用的信息相关的个人数据,或使这些数据以某种方式可访问。这些模型本质上处理与已识别或可识别个人相关的数据,因此属于数据保护法规的范畴。意见承认,此类AI模型处理的数据不能归类为匿名数据,因为它们保留或推断出与可识别个人相关的信息。此外,在个人数据上训练的模型经常推断未包含在原始训练数据集中的个人的信息,这使得它们能够识别模式并利用训练阶段获得的知识对新个体进行预测。这些特征带来了数据保护法下的重大合规挑战。未能进行严格监督和管理可能导致违反数据保护框架,意大利对OpenAI的案例就是一个典型。
4. GDPR的一般原则与AI模型
EDPB在指南中承认GDPR的一般和核心原则适用于AI模型。这包括合法性原则(要求AI系统在法律框架内运作,必须具有GDPR第6条和可能第9条下的法律依据)、公平性原则(旨在保证自动化决策不会导致不公正、有偏见或歧视性的结果)、透明度原则(要求遵守GDPR第12至14条规定的信息义务)、数据最小化原则(要求个人数据充分、相关且严格限于特定目的)、目的限制原则(确保AI不将个人数据用于其预期范围之外而无需正当理由)、准确性原则(不仅仅是技术问题,更是监管和道德要求)、存储限制原则(规定个人数据应以允许识别数据主体的形式保存不超过处理目的所需的时间)以及完整性和保密性原则(对于监管合规、安全和公众信任至关重要)。最后,问责制原则规定数据控制者不仅必须遵守法规,还必须能够证明其合规性。
5. 第28/2024号意见的主要内容
5.1. GDPR对AI的适用性
意见承认,当AI模型在个人数据上训练时,即使其并非有意构建来生成关于特定个体的信息,训练数据的残余仍可能嵌入其内部结构中。这些残余以数学表示的形式存储,虽然经过抽象且与原始数据集不同,但仍可能保留原始信息的痕迹。因此,EDPB得出结论,任何可从中提取或重建可识别数据的AI模型都不能被归类为匿名。这种评估并非一致,例如汉堡数据保护与信息自由专员在2024年7月发布的讨论文件曾建议某些AI模型不存储个人数据。EDPB主张进行个案评估,以确定训练后的AI模型是否仍在处理个人数据,这为各国监管机构的不同解读留下了空间。
5.2. 训练AI:使用“合法利益”作为开发AI系统的法律依据
EDPB承认合法利益(GDPR第6(1)(f)条)可能作为这些阶段处理个人数据的有效法律依据。然而,其适用性取决于结构化的法律评估。控制者必须建立一个结构化的三步测试:1. 所追求的利益是合法的、明确界定的,并且对控制者或第三方是实质性的。2. 处理对于实现所确定的利益是严格必要的,意味着没有侵入性更小的手段就足够了。3. 合法利益不会被数据主体的基本权利和自由所覆盖。AI模型的开发和部署并不总是构成单一、统一的数据处理活动,这增加了评估的复杂性。控制者必须清晰阐明数据处理在不同阶段的目的,尽管对于像大语言模型这样的通用AI,其部署目的可能在后期才变得清晰。EDPB提供了一个基于其关于合法利益指南的、结构化的方法,但这可能导致各国数据保护机构采取不同的方法。
5.2.1. 第一步:合法利益的存在
要被视为合法,一项利益必须满足三个累积条件:必须有法律依据(符合现有法律框架且不冲突基本权利);必须被精确定义;必须是真实和现实的(在评估时存在,而非推测或假设)。意见承认AI模型的某些用途可能属于控制者的合法利益,例如开发对话助手、欺诈检测模型或基于AI的威胁检测系统。然而,即使确立了合法利益,也必须考虑数据主体的期望。如果AI模型对数据的使用超出了数据主体可能预期的范围,则可能需要额外的保障措施。
5.2.2. 第二步:必要性测试
必要性原则在处理个人数据的合法性确定中起着关键作用。必要性评估涉及两个关键要素:首先,必须确定数据处理活动是否真正能够实现预期目的;其次,必须确定是否可以通过侵入性更小的手段实现相同的目标。意见强调,如果AI模型可以在不处理个人数据的情况下执行其预期功能,则不应认为使用个人数据是必要的。一个关键问题是目的是否可以通过侵入性更小的替代方案有效实现。EDPB为评估必要性确立了严格标准,要求控制者证明没有同等有效但侵入性更小的方法可用。另一个关键问题是AI系统是否可以在完全不处理个人数据的情况下运行。如果可以通过匿名化或合成数据实现相同目标,则应认为依赖个人数据是不必要的。然而,匿名化技术通常会剥离关键细节,可能降低模型性能,且常常无法提供强大的隐私保护,因为数据可能被反向工程重新识别。合成数据也常常不是现实世界数据的完美替代品,其使用可能伴随显著限制,影响模型性能、准确性和可靠性。
5.2.3. 第三步:平衡
5.2.3.1. 数据主体与控制者的利益
AI处理在生命周期的不同阶段以不同方式影响数据主体。在开发阶段,个人的主要关切涉及对个人数据的自决和控制。在部署阶段,除了隐私之外,还会出现经济和社会利益方面的额外风险。随着AI系统越来越依赖个人数据进行开发和部署,平衡数据主体与AI开发者或第三方利益之间的挑战变得更加紧迫。个人权利(如隐私、自主权和非歧视)与数据处理创新必要性之间的紧张关系需要仔细的法律和伦理考量。
5.2.3.2. AI处理中的风险评估
需要进行平衡测试,以根据对数据主体构成的风险评估AI处理是否合理。意见提出了影响此评估的几个因素。首先,处理数据的性质和数量。网络抓取和不加区别的数据收集,在没有足够保障措施的情况下进行,可能会因所收集信息的规模和敏感性而导致重大风险。其次,必须考虑处理的背景。一个关键特征是个人是否可以合理预期其数据将用于AI开发。如果数据是从意外来源收集或没有适当通知,则会出现对公平性和透明度的担忧。第三,考虑处理的潜在后果。AI模型可能会无意中复制训练数据的可识别片段,从而在未经同意或其他法律依据的情况下将个人信息重新引入流通。最后,危害的可能性。例如,向弱势个体推荐不当内容的AI系统可能对心理健康构成风险,而自动内容审核可能压制受保障的言论自由。
5.2.3.3. 保障措施和风险缓解策略
为解决这些问题,AI开发者和监管机构必须实施与每个AI模型构成的特定风险相称的保障措施。这些保障措施分为三个关键领域。一方面,是技术措施,例如假名化技术以防止个人重新识别,以及在训练集中用合成替代品进行数据掩码和替换。另一方面,实施增强个人行使其权利能力的措施。这可能包括让个人从一开始就选择退出数据处理,确保他们可以在任何处理发生之前提出反对,从而加强他们对个人数据的控制;以及将删除权扩展到GDPR第17(1)条规定的条件之外,允许个人即使在所列理由不完全适用的情况下也请求删除数据。此外,还有透明度和用户控制机制。这些包括在处理发生前提供清晰且易于访问的选择退出选项,使个人能够请求从AI模型中删除其个人数据,以及通过年度报告、公开披露和解释AI能力的详细模型卡来增强GDPR要求之外的透明度。
5.2.3.4. 平衡测试与网络抓取
平衡测试也适用于网络抓取,即AI模型收集大量公开可用的数据集。必须为网络抓取实施特殊的保障措施:从收集中排除特别敏感类别的数据,尊重禁止自动数据提取的网站政策,以及通过施加基于时间的收集限制来限制历史分析。意见承认,不加区别的大规模抓取是有问题的。然而,它并不排除选择性和合理的数据收集,只要控制者排除可能伤害弱势个体或违反隐私期望的信息。为解决这些担忧,意见建议进一步的缓解措施,例如通过公共信息宣传活动、详细的AI数据使用文档来加强透明度;遵守robots.txt和ai.txt信号以尊重选择退出自动数据收集的在线平台;以及提供个人控制机制,例如数据删除请求和AI模型的“反学习”技术。这一立场代表了与一些国家数据保护机构先前发布的指南相比更为细致和灵活的立场。EDPB承认,原则上,合法利益可以证明此类处理是合理的,前提是进行了彻底的个案评估。
5.3. 非法训练的AI系统的后果
5.3.1. AI开发中非法处理对GDPR下后续处理和合规性的影响
意见提供了关于监管机构应如何评估此类违规行为对后续处理影响的指导,强调了一种考虑各种因素的个案处理方法。意见区分了保留个人数据的AI模型和已有效匿名化的模型。它还区分了由开发它们的同一控制者使用的模型和由单独控制者获取或部署的模型。关键的法律问题是原始数据处理缺乏法律依据是否会影响后续使用的合法性,特别是当控制者依赖GDPR第6(1)(f)条下的合法利益依据时。意见表明,在这种情况下,初始处理的非法性质必须在合法利益的平衡测试中加以考虑。这一立场与法国CNIL的严格方法形成对比,后者曾表示,重复使用未按照GDPR规定收集的数据集是非法的。
5.3.2. 非法处理的情景及其后果
意见探讨了AI模型非法开发的几种可能情景并审查了其法律后果。情景1:模型保留个人数据并由收集数据的同一控制者使用。如果非法开发的AI模型继续被同一控制者使用,监管机构必须确定初始和后续处理是否服务于不同目的。如果初始处理缺乏有效的法律依据,这可能会破坏后续使用的正当性。如果监管机构要求删除开发阶段的个人数据,这一纠正措施自然会影响后续处理。情景2:模型保留个人数据并由不同的控制者使用。当在非法处理数据上训练的AI模型后来被不同的控制者获取时,责任转移到获取实体以确保合规。意见强调了尽职调查的重要性,要求部署控制者评估模型的开发是否合法。尽管意见承认尽职调查的程度可能因所涉及的风险而异,但它明确表示后续控制者不能完全脱离潜在的责任。情景3:模型在进一步处理前被匿名化。如果在非法处理的个人数据上训练的模型在使用前进行了有效匿名化,则GDPR不再适用于其后续部署。意见澄清,匿名化可以作为合规保障措施,但仅仅断言匿名性是不够的;监管机构保留评估匿名化是否真正实现的自由裁量权。
5.3.3. 问责制、尽职调查与《人工智能法案》的作用
监管机构在确定个人数据被非法处理时,拥有广泛的权力根据GDPR实施纠正措施。这些措施的范围可能从罚款和临时限制处理,到更严厉的行动,例如要求删除非法处理的数据,甚至在极端情况下,强制删除整个数据集甚至AI模型本身。EDPB强调,GDPR的合规性不仅限于AI模型的原始开发者,还延伸到参与其部署的所有后续控制者。每个控制者必须独立确保其数据处理活动的合法性,并根据GDPR第5条和第6条证明合规性。《人工智能法案》通过要求高风险AI系统的提供商提交欧盟符合性声明来补充这一框架,该声明必须确认遵守欧盟数据保护法律。然而,EDPB警告说,此类自我声明不会自动确立GDPR下的合规性,监管机构保留进行独立评估的权力。
5.4. 训练后数据处理与GDPR的适用性
5.4.1. 可识别数据
意见强调,即使信息以人类无法立即访问的格式(例如机器可读的专有或开放格式)进行编码或结构化,也被视为与可识别的自然人有关,因为即使在这些情况下,软件工具也可以实现特定数据的识别、识别和提取。这种担忧在AI模型中尤为突出,其中参数编码了从训练数据中得出的统计关系。这些关系有时允许直接从编码关系中或通过模型查询间接恢复个人数据。
5.4.2. CJEU 在C-413/23 P案中的判决
2025年9月,欧盟法院(CJEU)发布了一项重要判决,重新构建了欧盟法律下对假名化数据的处理。法院认为,假名化数据不会自动为每个接收者认定为个人数据。该判决澄清了数据保护实践中长期存在的模糊性。争议源于单一处置委员会(SRB)与股东和债权人进行协商,在将数据集转移给德勤之前用代码替换了姓名。EDPS辩称该数据仍然是个人数据,触发了SRB据称未能遵守的透明义务。SRB坚持认为数据已被匿名化,因此不在该法规的范围内。CJEU拒绝了一种笼统的推定,即假名化数据必须始终被视为个人数据。它强调,决定性的标准是接收者是否有可能合理地重新识别数据主体,考虑到他们可用的手段。当重新识别对接收者来说实际上不可能时(因为他们无法访问“密钥”或能够逆转的辅助数据),从他们的角度来看,该数据集可能不再构成个人数据。这种情境化方法对数据创新,特别是AI开发,具有重要影响。这项判决标志着一个转折点:它保留了欧盟数据保护法的保护逻辑,同时为相称的、情境敏感的数据使用开辟了空间。它强调,假名化既不是监管黑洞,也不是GDPR下的终身判决,而是一个其法律待遇取决于重新识别的现实可能性的中间地带。
5.4.3. 围绕此问题的争议
意见区分了两种类型的AI模型。一方面,那些明确设计用于提供关于训练期间使用其数据的个人的个人数据的模型,涉及个人数据处理,因此受GDPR的约束。另一方面,并非有意设计用于提供访问训练中使用的个人数据的模型。后者不能以单一方式标记,因为这完全取决于是否仍然可以使用“合理可能使用的手段”提取个人数据。评估训练AI模型所用数据相关的个人是否可被重新识别依赖于客观标准,意见基于WP29第05/2014号意见强调了这些标准:i) 数据和模型的特征;ii) 使用背景;iii) 额外信息的可用性;iv) 成本和努力;v) 技术能力。全面的评估不仅需要理解模型的技术和背景方面,还需要意识到技术不断发展的能力以及辅助数据的可访问性。意见澄清,即使数据以非人类立即可读的格式(例如机器可读格式)结构化或编码,数据仍可能与个人相关。在这种情况下,软件应用程序的使用可以促进特定数据的识别、识别或提取。这对于AI模型尤其重要,其中参数反映了训练数据中的统计模式。这些模式可能实现个人数据的检索,无论是直接从编码信息中间接通过模型查询,即使数据是推断的而非精确的。
5.4.4. AI部署
5.4.4.1. 部署阶段的缓解措施
意见提出了AI模型部署阶段,特别是生成式AI和通用AI,出现的潜在数据保护威胁。对于这些,AI系统需要实施有针对性的保障措施,以防止与个人数据的存储、反刍和未经授权复制相关的风险。从技术角度来看,可以采用输出过滤等机制来限制生成式AI模型再现个人数据的能力,从而降低无意披露的风险。然而,它们的有效性有限。另一方面,合法的输出可能因过滤过度而被阻止,从而降低模型的可用性。此外,数字水印可以作为跟踪和管理AI生成输出的工具,有助于防止AI生成内容的非法重复使用,并确保在出现数据保护问题时具有可追溯性。然而,水印通常可以被移除或更改,这限制了它们在执法中的有效性。除了技术保障措施外,控制者还应促进和加强数据主体在部署阶段行使权利,将保护范围扩展到法律条款严格要求之外。这可能包括允许个人挑战或请求从AI模型中删除其个人数据的机制,特别是在训练数据记忆导致意外数据保留的情况下。监督机构在评估特定AI模型的部署时,还应检查控制者是否进行了平衡测试并将其结论公开发布。此类评估的发布促进了透明度和问责制,确保已彻底考虑并权衡了AI系统所追求的合法利益对基本权利构成的风险。
5.4.4.2. 数据控制者的职责
在AI系统背景下,数据控制者的角色不会因所采用技术的复杂性或不透明性而减弱。相反,AI的部署增加了控制者根据GDPR承担的责任。控制者仍然是确保AI系统生命周期的每个阶段都符合数据保护法的主要责任方。定义谁是数据控制者并不容易,因为AI系统的开发和部署可能涉及不同的阶段,每个阶段都可能构成单独的数据处理活动。这些阶段也可能导致不同的实体承担控制者的角色,这取决于处理责任的结构方式。控制者需要考虑“合理可能使用的所有手段”(GDPR序言26),无论是他们自己还是第三方,来识别个人。实际上,这意味着控制者必须:(a)精确界定处理目的,并确保AI系统的输出严格符合这些目的;(b)进行并记录彻底的数据保护影响评估(DPIA),不仅要识别明显的风险,还要识别因模型运行可能产生的系统和下游危害;(c)在AI生命周期的全过程确保数据质量和相关性,在可能的情况下应用强有力的最小化、匿名化或假名化措施;(d)实施有效的治理结构,以监督旨在缓解风险的技术和组织措施;(e)通过保存决策、保障措施和应对已识别风险或违规行为所采取的纠正措施的全面记录来保持完全的问责制。
6. 在GDPR下确立AI模型的匿名性
6.1. GDPR下的个人数据概念
根据GDPR,如果AI模型包含或可用于提取与已识别或可识别自然人相关的信息(第4(1)条),则 将 被 视 为 包
打赏