无监督学习(Unsupervised learning)——即在没有指导、奖励或反馈的情况下,通过重复暴露进行学习——是机器学习与人类认知(包括语言习得和统计学习)的核心机制。然而,其在视觉知觉学习(Visual Perceptual Learning, VPL)中的作用仍存在争议,因为既往研究未能展示针对可见但任务无关特征的VPL,尤其是人工刺激。本研究表明,暴露于任务无关的自然场景图像会诱导稳健的VPL,而缺乏自然场景图像复杂结构特征(即高阶统计,higher-order statistics)的人工图像则不会。行为与功能磁共振成像(fMRI)结果表明,尽管无监督学习是VPL的基础,但其可被自上而下注意(top-down attention)抑制。高阶统计可能规避这种抑制,原因可能是其较慢的加工过程使得视觉信息到达V1以外视觉区的时间,错过了注意抑制的最佳时间窗。这些发现表明无监督学习是VPL的基础,但其发生取决于刺激的高阶结构以及大脑的注意门控机制。
研究背景与意义:
视觉知觉学习(VPL)指的是由于视觉经验导致的对基本视觉特征(如朝向或运动方向)敏感性的长期改善。长期以来,学界争议无监督学习(即无指令、无奖励的重复暴露学习)是否是VPL的基本机制。既往部分研究认为VPL需要反馈或顶层加工,但也有研究显示,当任务无关特征处于知觉阈值附近或与任务相关事件在时间上关联时,能发生VPL(即任务无关知觉学习,TIPL)。然而,大多数VPL研究使用结构简单的人工刺激(如Gabor光栅),而自然场景包含更复杂的高阶统计结构(如边缘、纹理、轮廓的全局空间关系)。目前尚不清楚,对于阈上、任务无关的自然场景图像,无监督VPL是否会发生,以及注意机制如何调控这一过程。该研究发表于《Nature Communications》,旨在厘清无监督学习在VPL中的普遍性问题,并揭示刺激统计结构与注意门控机制的交互作用。
主要关键技术方法:
研究人员开展了系列行为实验(Experiment 1-10, 12-13)及一项fMRI实验(Experiment 11)。行为实验主要采用“快速序列视觉呈现(RSVP)”任务来占用注意资源,同时将自然场景(NS)、傅里叶打乱图像(FS)、峰度偏度匹配图像(KS)、Portilla-Simoncelli纹理图像(PS)、仅含高阶统计图像(HS)及Gabor图像(GP)等作为任务无关的背景图像进行重复暴露。通过前后测的朝向辨别或空间频率辨别任务评估VPL效应。此外,利用被动自由观看范式(Experiment 3)对比注意负荷的影响;通过心理物理“截止时间”范式(Experiment 12)测量不同统计图像朝向信息的加工时间;通过眼动记录(Experiment 13)排除自下而上注意捕获的混淆。fMRI实验(Experiment 11,28名受试者)采用难易两种RSVP任务,结合功能连接与表征相似性分析(RSA),在视网膜拓扑定义的视觉皮层感兴趣区(ROI:V1, V2, VP, V3, V4v, V3A)及注意源区(IPS, FEF)中,考察任务无关高阶与低阶统计图像引发的BOLD信号抑制差异。
研究结果:
VPL occurs for supra-threshold task-irrelevant natural scene images, but not for artificial images(实验1):
研究人员发现,当受试者在RSVP任务中重复暴露阈上、任务无关的自然场景(NS)图像时,其后续对暴露朝向的辨别能力显著提升(VPL效应);而暴露同样阈上、任务无关的傅里叶打乱图像(FS,保留了低阶统计但破坏高阶空间结构)则无显著学习效应。空间频率特征也得类似结论(实验2)。
Self-paced passive viewing enables unsupervised VPL for both natural scene and artificial images(实验3):
当取消RSVP任务、允许受试者自我节奏被动自由观看图像时,无论是NS还是FS图像,均能引发显著的VPL。这表明无监督学习本身可发生于两类图像,但注意参与的任务会抑制人工图像的学习。
Testing if marginal statistics (kurtosis and skewness) in natural scene images as task-irrelevant play a critical role in unsupervised VPL(实验4):
使用匹配了自然场景峰度与偏度但缺乏高阶空间结构的KS图像作为任务无关刺激时,未观察到VPL,说明边缘统计(marginal statistics)本身不足以促成注意下的无监督VPL。
Testing if higher-order statistics in natural scene images as task-irrelevant play a critical role in unsupervised VPL(实验5、6):
当使用包含自然场景高阶统计的PS图像,以及仅含高阶与边缘统计、但打乱局部朝向的HS图像作为任务无关刺激时,均出现显著VPL;尤其HS图像表明,局部低阶朝向统计并非必要,高阶统计已足以支撑VPL。反之,强朝向信号的Gabor图像(GP)若缺乏高阶统计,仍无VPL。
Higher-order statistics in natural scene images are less susceptible to attentional suppression(实验10):
在注意转移范式中,HS图像(含高阶统计)的朝向辨别表现受注意分散的影响显著小于KS图像(含低阶统计),表明高阶统计表征对注意抑制的敏感性更低。
Higher visual areas reflect reduced attentional suppression on task-irrelevant higher-order statistics (Experiment 11):
fMRI结果显示,HS图像相比KS图像在V2、VP、V3、V4v等高于V1的视觉区引发更弱的BOLD信号抑制(即更低的fMRI suppression index),而在V1及V3A无显著差异。RSA显示高阶统计表征的模式相关性在高层视觉区受注意影响更小。注意源区(IPS、FEF)的激活及与视觉区的功能连接并未因图像类型不同而差异显著,提示注意抑制程度的差异更多在视觉皮层内部体现,而非顶层注意控制信号本身有差异。
Higher-order statistics may be processed outside the temporally optimal window for attentional suppression (Experiment 12):
心理物理截止时间范式测得,HS图像朝向信息的加工时间比KS图像长约287.3 ms。由于注意抑制对人工刺激的作用时间窗通常在150 ms内,高阶统计的较慢加工可能使其抵达高层视觉区时,避开了最有效的抑制时段。
Experiment 13 ruled out the bottom-up capture hypothesis:
眼动与瞳孔数据表明,各图像类型(NS/HS/PS/KS/FS/GP)在RSVP任务中引发的眼跳、注视分布及瞳孔变化无显著差异,且RSVP表现也无差异,排除了“自然场景类图像因自下而上注意捕获而减少抑制”的解释。
讨论部分总结:
研究人员指出,无监督学习是人类学习与机器学习的普遍原则,也在统计学习、语言习得中发挥核心作用。但在VPL领域,由于既往多使用人工刺激且任务无关可见特征常被注意抑制,导致其作用受争议。本研究表明,当任务无关刺激含有自然场景的高阶统计时,即使处注意负荷下,仍能发生VPL;而缺乏高阶统计的人工刺激则被注意抑制,无VPL。被动观看时两者均可学习。进一步证据表明,高阶统计在高于V1的视觉区(如V2、V4v)加工较慢,可能错过注意抑制的最优时间窗,从而在功能上“逃逸”抑制;注意源区发送的控制信号强度并不因刺激类型不同而不同,差异更多体现在视觉皮层对不同类型统计信息的抑制敏感性。研究人员也讨论了FS与KS其实也含某些高阶统计,但因空间相位或像素分布打乱,其高阶统计远少于自然场景,不足以形成清晰的优势朝向。该发现对统计学习领域也有启示:经典统计学习多用被动范式,若置于注意需求高的任务中,仅依赖低阶统计的学习可能被抑制,而依赖高阶统计的学习仍可维持。此外,研究对人工智能亦有借鉴意义:输入图像的统计结构(尤其自然场景典型的高阶统计)可决定注意与视觉加工的交互,进而影响学习与否,提示在弱监督或无监督模型中纳入此类敏感性可能提升泛化与适应力。总之,无监督学习是VPL的基础机制,但是否表达受注意门控与刺激高阶结构共同调制。