数据协作十年演进：特征辨析、影响评估与研究前沿

时间：2025年11月11日

来源：Electronic Markets

编辑推荐：

本文聚焦数据协作（Data Collaboratives, DCs）这一跨部门数据共享模式，在概念提出十年后，针对其与开放数据平台、数据生态系统等概念的混淆问题，通过文献分析与171个案例的聚类研究，重新界定了DCs的六大操作特征，识别出五种典型集群，并归纳了其影响范畴，为理解DCs的多样性、有效性及未来研究方向提供了清晰框架，对推动数据向善（Data for Social Good）实践具有重要指导意义。

在当今大数据时代，利用数据促进社会公益（Data for Social Good）已成为各国政府、实践界和学术界日益关注的焦点。然而，尽管在交通管理、移民研究和城市发展等领域已涌现出不少成功案例，证明了数据在制定证据驱动政策、洞察社会现象和提升公民参与度方面的巨大潜力，但数据的社会化应用仍处于初步阶段，其广泛推广面临着技术、组织和伦理层面的多重制约。为了突破这些限制，一种被称为“数据协作”（Data Collaboratives, DCs）的跨部门合作模式应运而生，它被视为介于倡导数据完全开放的“开放数据运动”和以市场交易为驱动的“数据生态系统”之间的一条可行路径。自2015年Verhulst和Sangokoya首次明确定义DCs以来，十年间相关实践层出不穷，但也导致了概念上的模糊不清，与数据生态系统、开放平台等类似倡议的界限日益重叠，这在一定程度上阻碍了该研究领域的深入发展。为此，发表于《Electronic Markets》的这项研究，旨在对DCs的概念进行精细化梳理，明确其独特特征，并通过对大量案例的分析，揭示其内在的多样性、适用的领域以及产生的 impact，从而为未来的研究和实践提供更清晰的路线图。

为了系统回答研究问题，研究人员主要采用了文献分析、内容归纳和聚类分析等方法。首先，通过对现有学术文献和灰色文献的梳理，对DCs及相关概念（如开放数据、数据生态系统）进行了比较分析，从而提炼出区分DCs的六大操作特征。其次，研究构建了一个包含171个符合严格定义的DCs案例的数据集，这些案例源自datacollaboratives.org这一权威数据库，并经过了两轮独立审核以确保质量。数据集涵盖了来自公开资源的17个变量，涉及组织、技术、数据和目的等多个维度。随后，针对分类变量为主的数据特点，研究采用了基于信息理论的相似性度量（Goodall3）和层次聚类方法（Ward法），通过贝叶斯信息准则（BIC）等指标评估聚类质量，最终确定了五个具有显著区别的DCs集群。

研究结果

1. 支持创新的数据驱动计划 (Cluster 1)

该集群的项目通常由数据的可用性驱动，而非明确的社会需求。它们擅长通过发掘数据中潜在的社会价值来加速数据驱动创新。这些协作通常没有特定目标，高度依赖公民社会行为体（如独立数据科学家、研究人员）的参与，形式多为临时性的解决方案征集或单一事件。其使用的数据多为三级数据（tertiary data），即用于非原始收集目的的数据，应用领域广泛且目的多元。

2. 支持大规模研究的协作努力 (Cluster 2)

此集群主要由国际性的DCs构成，专注于通过系统性地汇集和再利用来自不同来源的数据，在健康等领域开展大规模创新研究项目。这些项目通常目标宽泛，侧重于通过探索性、高层面的研究在全球范围内产生社会影响。私人部门在此类合作中参与度较高，通常以按需提供大型二级数据集的方式支持研究。

3. 改善系统响应的持续努力 (Cluster 3)

该集群的协作旨在通过数据驱动的方法，系统性提升生活质量、促进社会与城市住区的包容性可持续发展、加强应急预防能力。其地理和制度边界通常明确，项目多为持续性努力，近半数项目以实现智慧城市管理为目标。公共管理部门在地方、国家或大陆层面参与较多。

4. 对紧急情况的快速响应 (Cluster 4)

该集群的项目旨在对自然灾害或公共卫生危机（如COVID-19大流行）提供即时的人道主义响应。所有项目都有明确的社会目标，且多为临时性质。私人部门全部参与，数据共享多采用“研究与分析伙伴关系”或“情报生成”模式，严重依赖三级数据源。

5. 促进发展的国际动员 (Cluster 5)

此集群包含旨在通过国际合作计划解决发展中国家结构性问题的全球性倡议。这些项目通常有预先声明的单一社会目标，影响范围多为国家层面，且多为持续性努力。公民社会机构（如国际非政府组织、当地大学）参与度极高，而当地公共部门的参与相对有限。

研究结论与讨论

本研究在数据协作概念提出十年后，首次通过理论辨析和实证聚类，清晰界定了DCs的六大操作特征（跨部门、目的驱动、数据中心、封闭数据伙伴关系、非竞争性、相互依存），将其与开放数据倡议和数据生态系统明确区分开来。研究识别出的五个DCs集群，展现了其在组织模式、技术应用和目标导向上的显著异质性，揭示了DCs在健康研究、智慧城市管理、应急响应和国际发展等多个领域已成为有效的解决方案。研究还归纳了DCs所产生的多种影响范畴。

这一分类框架的建立，不仅是对Verhulst等人早期分类的修订和扩展，更是一种分析性和描述性的理论贡献，有助于研究者进行更精细的比较研究或专注于特定集群的深入分析。跨集群的分析还揭示了各集群独特的发展挑战和研究重点，例如集群1的长期影响评估和人才激励问题，集群2中私人部门参与动机和公共部门缺位的原因，集群3的可持续商业模式探索，集群4的应急知识留存机制，以及集群5的地方公共部门参与和能力建设问题。

总之，这项研究为理解和推进数据协作这一重要领域提供了宝贵的概念工具和实证基础。通过阐明DCs的独特特征、内部差异和潜在影响，它不仅促进了学术界的知识积累，也为政策制定者和实践者设计、评估和优化数据协作项目提供了清晰的参考框架和基准识别依据，有望推动数据向善实践走向更加成熟和高效的未来。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部