本文聚焦数据协作(Data Collaboratives, DCs)这一跨部门数据共享模式,在概念提出十年后,针对其与开放数据平台、数据生态系统等概念的混淆问题,通过文献分析与171个案例的聚类研究,重新界定了DCs的六大操作特征,识别出五种典型集群,并归纳了其影响范畴,为理解DCs的多样性、有效性及未来研究方向提供了清晰框架,对推动数据向善(Data for Social Good)实践具有重要指导意义。
广告
X
在当今大数据时代,利用数据促进社会公益(Data for Social Good)已成为各国政府、实践界和学术界日益关注的焦点。然而,尽管在交通管理、移民研究和城市发展等领域已涌现出不少成功案例,证明了数据在制定证据驱动政策、洞察社会现象和提升公民参与度方面的巨大潜力,但数据的社会化应用仍处于初步阶段,其广泛推广面临着技术、组织和伦理层面的多重制约。为了突破这些限制,一种被称为“数据协作”(Data Collaboratives, DCs)的跨部门合作模式应运而生,它被视为介于倡导数据完全开放的“开放数据运动”和以市场交易为驱动的“数据生态系统”之间的一条可行路径。自2015年Verhulst和Sangokoya首次明确定义DCs以来,十年间相关实践层出不穷,但也导致了概念上的模糊不清,与数据生态系统、开放平台等类似倡议的界限日益重叠,这在一定程度上阻碍了该研究领域的深入发展。为此,发表于《Electronic Markets》的这项研究,旨在对DCs的概念进行精细化梳理,明确其独特特征,并通过对大量案例的分析,揭示其内在的多样性、适用的领域以及产生的 impact,从而为未来的研究和实践提供更清晰的路线图。为了系统回答研究问题,研究人员主要采用了文献分析、内容归纳和聚类分析等方法。首先,通过对现有学术文献和灰色文献的梳理,对DCs及相关概念(如开放数据、数据生态系统)进行了比较分析,从而提炼出区分DCs的六大操作特征。其次,研究构建了一个包含171个符合严格定义的DCs案例的数据集,这些案例源自datacollaboratives.org这一权威数据库,并经过了两轮独立审核以确保质量。数据集涵盖了来自公开资源的17个变量,涉及组织、技术、数据和目的等多个维度。随后,针对分类变量为主的数据特点,研究采用了基于信息理论的相似性度量(Goodall3)和层次聚类方法(Ward法),通过贝叶斯信息准则(BIC)等指标评估聚类质量,最终确定了五个具有显著区别的DCs集群。研究结果1. 支持创新的数据驱动计划 (Cluster 1)该集群的项目通常由数据的可用性驱动,而非明确的社会需求。它们擅长通过发掘数据中潜在的社会价值来加速数据驱动创新。这些协作通常没有特定目标,高度依赖公民社会行为体(如独立数据科学家、研究人员)的参与,形式多为临时性的解决方案征集或单一事件。其使用的数据多为三级数据(tertiary data),即用于非原始收集目的的数据,应用领域广泛且目的多元。