面向通用基础模型的脑电图统一数据注册表研究

时间:2026年5月16日
来源:Brain‐X

编辑推荐:

脑电图(Electroencephalography, EEG)广泛应用于认知神经科学、临床诊断及脑机接口(Brain-Computer Interfaces, BCIs)领域。近期研究开始探索大规模EEG预训练以实现可迁移表征学习,此类研究需要跨任务、跨人群

广告
   X   

脑电图(Electroencephalography, EEG)广泛应用于认知神经科学、临床诊断及脑机接口(Brain-Computer Interfaces, BCIs)领域。近期研究开始探索大规模EEG预训练以实现可迁移表征学习,此类研究需要跨任务、跨人群的多样化且组织良好的EEG数据。当前公共EEG数据集分散于各类平台与出版物中,在实验范式、记录设置及元数据标准方面存在显著差异。这种碎片化现象导致大规模发现、整合与复用效率低下,尤其阻碍了基础模型预训练的发展。为解决上述问题,研究人员系统筛选了2020年至2026年间更新的公共EEG数据集,构建了适配可扩展预训练与基准测试的统一EEG数据集注册表。本研究的核心产出是一个具备结构化元数据的注册表,支持高效的数据集发现、筛选及EEG基础模型预训练的直接检索。研究人员审阅了900余篇文献,筛选出827个符合条件的数据集,依据六分类体系(认知、BCI、自然场景、临床、神经调控与方法学)进行组织。针对每个数据集,研究人员记录了其公开报道的标准化元数据字段,包括任务范式、设备、通道数、电极导联、采样率、参与者数量、地区、年龄、健康状况、许可协议、数据模态及标签可用性,同时嵌入数据集与文献链接以支持直接检索。基于该精选清单,研究人员描述了EEG资源的特征,包括领域失衡与平台集中现象,揭示了跨源语料库构建的难点。该注册表提供了集中访问入口与标准化描述,降低了发现成本与跨数据集对齐成本,为EEG基础模型的预训练与评估提供了支持。
该研究由Shengle Shi、Yinglu Song等研究人员完成,发表于《Brain‐X》。研究背景聚焦于脑电图(Electroencephalography, EEG)技术在认知神经科学、临床诊断与脑机接口(Brain-Computer Interfaces, BCIs)领域的广泛应用,以及深度学习驱动的基础模型(Foundation Models)在跨域表征学习中的突破。然而,现有公共EEG数据集呈现高度碎片化:分散于OpenNeuro、Zenodo等多平台,在实验范式、采集设备、数据格式及元数据标准上存在显著异质性,导致数据集发现、比较与复用成本极高,难以支撑大规模预训练所需的语料库构建。这种数据层面的局限,成为制约通用EEG基础模型发展的核心瓶颈,现有模型多局限于单任务或单数据集的特定范式,缺乏跨任务、跨设备、跨被试的泛化能力。
针对上述挑战,研究人员开展了一项系统性数据注册表构建研究。通过对2020年至2026年间公开发布的EEG资源进行全口径筛选与标准化整理,最终形成包含827个数据集的统一注册表。研究证实,该注册表通过提供结构化元数据与集中访问入口,有效解决了数据碎片化的痛点,为EEG基础模型的预训练与基准测试提供了关键基础设施,推动了从孤立数据集到共享数据空间的范式转变。
在技术方法层面,研究人员遵循PRISMA-ScR指南设计了三阶段工作流程。首先进行多平台检索,覆盖OpenNeuro、PhysioNet、OSF等9个神经生理与通用科学数据存储库,以“EEG”及“electroencephalography”为核心关键词,限定更新时间为2020至2026年。其次执行严格的纳入排除标准,以独立数据集为单元,要求包含可分析的EEG信号数据、可追溯的引用信息(如DOI)及支持复用的基本元数据,排除仅含代码、教程或非公开资源,并通过DOI、持久链接等进行去重。最后进行元数据提取与分类赋值,从数据集仓库页面及相关出版物中提取设备参数、被试特征、任务范式等标准化字段,并基于数据集的主要科学目标与数据生成背景,而非宿主平台或表面任务名称,构建了包含认知、BCI、自然场景、临床、神经调控与方法学在内的六分类体系。
研究结果部分按类别展开详细分析。概述部分显示,827个入选数据集涵盖超13万名参与者,认知类数据集占比最高(n=504),其次为临床类(n=116)、BCI类(n=106),自然场景(n=55)、神经调控(n=27)与方法学类(n=19)占比较低。平台分布呈现高度集中,OSF、OpenNeuro、Zenodo、Figshare与ScienceDB五大平台贡献了93.8%的数据集,且不同平台的类别构成存在显著差异:OSF以认知类为主,OpenNeuro兼顾认知与临床,Zenodo与Figshare则更多承载BCI类资源。
各类别数据集的特征分析进一步揭示其应用价值。认知数据集(n=504)聚焦感知、学习与记忆、语言处理等14个细分领域,多采用事件相关电位(Event-Related Potentials, ERPs)范式,具备清晰的事件标记与试次结构,适用于机制研究与表征学习。BCI数据集(n=106)分为控制、认知解码与被动监测三个子类,强调信号稳定性与解码准确率,工程化与标准化程度高,适合算法基准测试。临床数据集(n=116)以神经系统疾病、精神障碍及癫痫为核心,包含明确诊断的患者队列,侧重疾病检测与脑功能异常表征。自然场景数据集(n=55)捕捉真实世界连续交互中的EEG动态,如驾驶、运动场景下的持续记录,为生态效度研究提供支撑。神经调控数据集(n=27)同步记录经颅磁刺激(Transcranial Magnetic Stimulation, TMS)、经颅直流电刺激(Transcranial Direct Current Stimulation, tDCS)等干预前后的EEG变化,适用于因果机制验证。方法学数据集(n=19)专为流程验证设计,如ERP核心组件库与伪影校正基准。
讨论部分深入剖析了注册表的意义与局限。研究人员指出,注册表通过时间组织、通道导联、标签兼容性与覆盖多样性四个维度,将基础模型的适应性转化为可操作的元数据筛选策略,而非依赖主观判断。针对类别重叠问题,明确以队列与研究背景确定主类别,其余属性作为元数据保留。同时揭示了当前公共EEG资源的分布偏差:认知类数据集因范式细分更精细而数量占优,自然场景与神经调控类资源相对匮乏,且平台分布不均可能引入采样偏差。研究人员建议采用领域感知抽样、基于可用时长加权等策略缓解失衡风险。此外,研究承认了对持续更新的临床数据库(如TUH-EEG)、区域存储库及仅发表于期刊附录的非独立托管数据集可能存在遗漏,并规划了月度更新机制与向信号级标准化演进的路线图,包括与EEG-BIDS对齐及提供预处理示例。
结论部分强调,该研究将孤立、分散的EEG资源整合为统一、机器可读的注册表,构建了跨越核心认知功能、临床人群、BCI范式、自然场景与神经调控设置的规模化数据结构。这一基础设施不仅降低了数据获取与对齐成本,更为通用EEG基础模型的开发提供了坚实的数据基石,推动EEG领域进入可扩展的跨数据集学习时代。

生物通微信公众号
微信
新浪微博


生物通 版权所有