编辑推荐:
摘要合成数据增强可能会无形中损害与真实数据无关的脑电图(EEG)数据的泛化能力。我们提出了“信任门控增强”(Trust-Gated Augmentation, TGA)机制:该机制使用基于真实数据训练的模型对合成数据窗口进行评分,以确保标签的一致性和可靠性;只有评分高于某个置信分
合成数据增强可能会无形中损害与真实数据无关的脑电图(EEG)数据的泛化能力。我们提出了“信任门控增强”(Trust-Gated Augmentation, TGA)机制:该机制使用基于真实数据训练的模型对合成数据窗口进行评分,以确保标签的一致性和可靠性;只有评分高于某个置信分位数 q 的样本才会被采用。当验证集的AUROC与仅使用真实数据的AUROC之间的差异超过预设阈值时,系统才会插入合成数据;否则,系统会恢复仅使用真实数据的方式。在PainMunich慢性疼痛研究(n = 189例慢性疼痛患者/88例对照组)中,由于受试者数量较少(5%),未采用门控机制的增强方法导致56%的实验数据对出现误差(ΔAUROC < −0.01);而当置信分位数 q 设定为0.99时,这种增强方法的不良影响降至24%,且平均AUROC表现与仅使用真实数据的情况相当。在BCI IV-2a运动想象研究(n = 9例)中,同样由于受试者数量较少(25%),采用严格门控机制后,AUROC显著提高(从0.627提升至0.679),数据误差也显著减少(从0.44降至0.16)。协方差流形分析表明,合成数据窗口与真实数据流形存在显著差异(平均距离比为2.39 × 104),这进一步证明了实施明确的数据管理机制的必要性。
生物通 版权所有