面向通用基础模型的脑电图统一数据注册表研究

时间：2026年5月16日

来源：Brain‐X

编辑推荐：

脑电图（Electroencephalography, EEG）广泛应用于认知神经科学、临床诊断及脑机接口（Brain-Computer Interfaces, BCIs）领域。近期研究开始探索大规模EEG预训练以实现可迁移表征学习，此类研究需要跨任务、跨人群

脑电图（Electroencephalography, EEG）广泛应用于认知神经科学、临床诊断及脑机接口（Brain-Computer Interfaces, BCIs）领域。近期研究开始探索大规模EEG预训练以实现可迁移表征学习，此类研究需要跨任务、跨人群的多样化且组织良好的EEG数据。当前公共EEG数据集分散于各类平台与出版物中，在实验范式、记录设置及元数据标准方面存在显著差异。这种碎片化现象导致大规模发现、整合与复用效率低下，尤其阻碍了基础模型预训练的发展。为解决上述问题，研究人员系统筛选了2020年至2026年间更新的公共EEG数据集，构建了适配可扩展预训练与基准测试的统一EEG数据集注册表。本研究的核心产出是一个具备结构化元数据的注册表，支持高效的数据集发现、筛选及EEG基础模型预训练的直接检索。研究人员审阅了900余篇文献，筛选出827个符合条件的数据集，依据六分类体系（认知、BCI、自然场景、临床、神经调控与方法学）进行组织。针对每个数据集，研究人员记录了其公开报道的标准化元数据字段，包括任务范式、设备、通道数、电极导联、采样率、参与者数量、地区、年龄、健康状况、许可协议、数据模态及标签可用性，同时嵌入数据集与文献链接以支持直接检索。基于该精选清单，研究人员描述了EEG资源的特征，包括领域失衡与平台集中现象，揭示了跨源语料库构建的难点。该注册表提供了集中访问入口与标准化描述，降低了发现成本与跨数据集对齐成本，为EEG基础模型的预训练与评估提供了支持。

该研究由Shengle Shi、Yinglu Song等研究人员完成，发表于《Brain‐X》。研究背景聚焦于脑电图（Electroencephalography, EEG）技术在认知神经科学、临床诊断与脑机接口（Brain-Computer Interfaces, BCIs）领域的广泛应用，以及深度学习驱动的基础模型（Foundation Models）在跨域表征学习中的突破。然而，现有公共EEG数据集呈现高度碎片化：分散于OpenNeuro、Zenodo等多平台，在实验范式、采集设备、数据格式及元数据标准上存在显著异质性，导致数据集发现、比较与复用成本极高，难以支撑大规模预训练所需的语料库构建。这种数据层面的局限，成为制约通用EEG基础模型发展的核心瓶颈，现有模型多局限于单任务或单数据集的特定范式，缺乏跨任务、跨设备、跨被试的泛化能力。

针对上述挑战，研究人员开展了一项系统性数据注册表构建研究。通过对2020年至2026年间公开发布的EEG资源进行全口径筛选与标准化整理，最终形成包含827个数据集的统一注册表。研究证实，该注册表通过提供结构化元数据与集中访问入口，有效解决了数据碎片化的痛点，为EEG基础模型的预训练与基准测试提供了关键基础设施，推动了从孤立数据集到共享数据空间的范式转变。

在技术方法层面，研究人员遵循PRISMA-ScR指南设计了三阶段工作流程。首先进行多平台检索，覆盖OpenNeuro、PhysioNet、OSF等9个神经生理与通用科学数据存储库，以“EEG”及“electroencephalography”为核心关键词，限定更新时间为2020至2026年。其次执行严格的纳入排除标准，以独立数据集为单元，要求包含可分析的EEG信号数据、可追溯的引用信息（如DOI）及支持复用的基本元数据，排除仅含代码、教程或非公开资源，并通过DOI、持久链接等进行去重。最后进行元数据提取与分类赋值，从数据集仓库页面及相关出版物中提取设备参数、被试特征、任务范式等标准化字段，并基于数据集的主要科学目标与数据生成背景，而非宿主平台或表面任务名称，构建了包含认知、BCI、自然场景、临床、神经调控与方法学在内的六分类体系。

研究结果部分按类别展开详细分析。概述部分显示，827个入选数据集涵盖超13万名参与者，认知类数据集占比最高（n=504），其次为临床类（n=116）、BCI类（n=106），自然场景（n=55）、神经调控（n=27）与方法学类（n=19）占比较低。平台分布呈现高度集中，OSF、OpenNeuro、Zenodo、Figshare与ScienceDB五大平台贡献了93.8%的数据集，且不同平台的类别构成存在显著差异：OSF以认知类为主，OpenNeuro兼顾认知与临床，Zenodo与Figshare则更多承载BCI类资源。

各类别数据集的特征分析进一步揭示其应用价值。认知数据集（n=504）聚焦感知、学习与记忆、语言处理等14个细分领域，多采用事件相关电位（Event-Related Potentials, ERPs）范式，具备清晰的事件标记与试次结构，适用于机制研究与表征学习。BCI数据集（n=106）分为控制、认知解码与被动监测三个子类，强调信号稳定性与解码准确率，工程化与标准化程度高，适合算法基准测试。临床数据集（n=116）以神经系统疾病、精神障碍及癫痫为核心，包含明确诊断的患者队列，侧重疾病检测与脑功能异常表征。自然场景数据集（n=55）捕捉真实世界连续交互中的EEG动态，如驾驶、运动场景下的持续记录，为生态效度研究提供支撑。神经调控数据集（n=27）同步记录经颅磁刺激（Transcranial Magnetic Stimulation, TMS）、经颅直流电刺激（Transcranial Direct Current Stimulation, tDCS）等干预前后的EEG变化，适用于因果机制验证。方法学数据集（n=19）专为流程验证设计，如ERP核心组件库与伪影校正基准。

讨论部分深入剖析了注册表的意义与局限。研究人员指出，注册表通过时间组织、通道导联、标签兼容性与覆盖多样性四个维度，将基础模型的适应性转化为可操作的元数据筛选策略，而非依赖主观判断。针对类别重叠问题，明确以队列与研究背景确定主类别，其余属性作为元数据保留。同时揭示了当前公共EEG资源的分布偏差：认知类数据集因范式细分更精细而数量占优，自然场景与神经调控类资源相对匮乏，且平台分布不均可能引入采样偏差。研究人员建议采用领域感知抽样、基于可用时长加权等策略缓解失衡风险。此外，研究承认了对持续更新的临床数据库（如TUH-EEG）、区域存储库及仅发表于期刊附录的非独立托管数据集可能存在遗漏，并规划了月度更新机制与向信号级标准化演进的路线图，包括与EEG-BIDS对齐及提供预处理示例。

结论部分强调，该研究将孤立、分散的EEG资源整合为统一、机器可读的注册表，构建了跨越核心认知功能、临床人群、BCI范式、自然场景与神经调控设置的规模化数据结构。这一基础设施不仅降低了数据获取与对齐成本，更为通用EEG基础模型的开发提供了坚实的数据基石，推动EEG领域进入可扩展的跨数据集学习时代。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部