摘要
大脑是如何学会预测奖励的?根据时间差(TD)学习理论,随着刺激-动作-结果关联的学习,奖励预测误差(RPE)应该从结果交付的时间转移到更早的预测线索上。奖励阳性(一种电生理信号,被认为可以指示前扣带回皮层对正RPE的敏感性)应该在学习过程中逐渐从反馈转移到预测线索上。然而,这个关于奖励阳性的核心预测至今仍然缺乏充分的验证。我们记录了73名健康成年人在执行概率选择任务(PST)时的脑电图(EEG),这些参与者进行了扩展的训练试验。在训练的早期和后期阶段(分别对应第一和第二阶段),我们测量了反馈和线索呈现时的奖励阳性幅度。为了研究RPE相关学习过程中的个体差异,我们将参与者分为快速学习者和慢速学习者两组,并拟合Q学习模型来估计正反馈和负反馈各自的学习率。结果清楚地显示了时间反向传播的现象:在学习初期,奖励阳性在反馈出现时出现;而在学习后期,它从反馈中消失,转而在预测线索出现时出现。快速学习者表现出更明显的奖励阳性从反馈到线索的转移,这与他们的较高学习率一致。这些发现提供了第一个明确的证据,证明奖励阳性确实体现了TD学习理论所预测的时间反向传播。结果验证了奖励阳性作为正RPE的神经标志物,并强调了同时研究线索相关和反馈相关大脑反应的重要性,以全面理解强化学习过程。我们的发现对于理解强化学习中的个体差异以及解释临床人群和生命周期中的奖励阳性现象具有重要意义。
1 引言
利用环境线索指导行为朝向目标的能力是强化学习的核心组成部分。大量的实证和计算研究表明,这一基本机制主要由奖励预测误差(RPE)信号驱动——当事件“好于预期”(正RPE)或“差于预期”(负RPE)时,多巴胺活动会出现短暂的激增或下降(Schultz 2011, 1998)。具体来说,RPE反映了实际结果与预期结果之间的差异,当结果好于预期时为正,差于预期时为负。与强化学习的正式模型一致,RPE是时间差(TD)学习的核心组成部分,TD学习算法根据预期奖励与实际奖励之间的差异来更新价值估计(也称为状态价值)(Sutton和Barto 1998)。TD算法的一个关键特征是,随着试错学习任务的进行,RPE会从奖励交付的时间转移到更早的预测线索上,逐渐转移到最早的奖励预测指标。RPE信号的反向传播使得早期线索和行为获得预测价值,从而实现刺激-动作-结果关联的学习。为了研究人类的这一学习过程,研究人员通常使用概率学习任务,其中参与者需要在提供概率奖励的选项之间进行选择(Sutton和Barto 1998)。在这些范式中,参与者需要学习多个刺激对之间的区分(即线索),每对刺激中的一个与更高的奖励概率相关(例如80%、70%或60%的试验),而另一个刺激则获得相应的较低奖励概率(例如20%、30%或40%)(Frank等人2004)。根据TD学习理论,随着参与者通过试错选择每个对中更常被奖励的刺激,正RPE应该从意外的奖励交付转移到刺激对的呈现上,因为这些线索获得了预测价值,而现在的预期反馈对应的RPE应该减少。这种时间上的迁移使得学习序列中的早期事件获得预测价值,并指导未来的行为。关于人类事件相关脑电位(ERP)的研究试图识别这些强化学习过程的神经特征(Holroyd和Coles 2002;Baker和Holroyd 2009;Cavanagh等人2010)。特别是在概率学习任务中记录ERP时,研究人员发现负反馈后比正反馈后出现了更大的负偏转(即N200成分),大约在反馈后250毫秒达到头皮的前中央区域(Holroyd和Coles 2002;Miltner等人1997)。这个成分在频率域中也表现为前额中线θ振荡(FMT:4-8 Hz)(Hajihosseini和Holroyd 2013;Cavanagh和Frank 2014)。虽然最初将N200成分解释为反映错误处理机制,并称之为反馈错误相关 negativity(fERN)(Miltner等人1997),但后续研究表明,ERP中的差异主要源于正向偏转——即奖励阳性——这是由意外的正面反馈选择性引发的(Holroyd等人2008;Baker和Holroyd 2011;Cohen等人2007)。由于奖励阳性和N200在奖励试验中在空间和时间上都有重叠,并且极性相反,因此在正反馈后的ERP中N200看起来更小、缺失或显示出更正的偏转,这是由于成分重叠,而不是因为错误处理减少或冲突处理(Holroyd等人2008;Baker和Holroyd 2011)。这一观察结果提出了N200代表对意外任务相关事件的默认控制反应,而奖励阳性是由正RPE对前扣带回皮层(MCC)的影响产生的,该皮层利用多巴胺奖励信号来学习目标导向行为的价值(Holroyd和Yeung 2012)。遗传学、药理学、神经影像学和电生理学证据支持奖励阳性反映了在MCC产生的正RPE信号的观点,包括多巴胺基因多态性的调节、多巴胺激动剂的选择性抑制、与腹侧纹状体的fMRI BOLD反应的相关性,以及直接颅内记录证据表明MCC是主要生成器(Oerlemans等人2025;Baker, Stockwell等人2016;Lau等人2026;Cavanagh和Holroyd 2026;Sambrook和Goslin 2015)。尽管在过去三十年中对反馈相关ERP成分进行了大量研究,但TD学习理论的一个核心预测仍然几乎没有得到验证:奖励阳性幅度是否反映了TD学习理论所预测的反向传播动态。虽然一些研究表明这种迁移确实发生(Baker和Holroyd 2009;Holroyd等人2011;Walsh和Anderson 2012),但由于理论和方法上的限制,证据仍然不充分。从理论上讲,一些研究人员认为反馈和线索相关的奖励阳性仅仅反映了增强的显著性反应,而不是真正的RPE反向传播。例如,Talmi等人(2013)发现意外的身体惩罚会引发奖励阳性,认为这个成分反映了任何动机显著结果的未签名显著性预测误差,而不论其阀值如何。Brown和Cavanagh(2018)也发现对预测线索的P200反应增强,当引入结果不确定性时这种反应会消失,支持了突出性的解释而非基于学习的解释。从方法上讲,即使是报告对预测线索的奖励阳性的研究也没有测试TD理论所核心的动态学习过程。早期的研究使用在被动观看任务中具有固定概率的线索,或者使用具有明确指令关联的确定性预测线索(Baker和Holroyd 2009;Holroyd等人2011)——这些设计排除了测试从结果到线索的RPE反向传播所需的渐进学习过程。此外,随后结合学习阶段的ERP研究仅关注fERN——即对负反馈的ERP负偏转——而不是奖励阳性,即对正反馈的ERP正偏转(Walsh和Anderson 2012),因此不清楚观察到的ERP差异是由于对损失预测线索的增强阴性还是对奖励预测线索的增强阳性。本研究通过分别测量不同学习阶段中正反馈和负反馈条件下的N200,使我们能够直接区分与学习相关的奖励阳性变化(对正反馈的正偏转)与对负反馈的负偏转变化,而不是将两者合并为单一的差异波形。需要注意的是,一个关键的测量考虑因素是奖励阳性、N200和fERN之间的关系。历史上,fERN被定义为N200对负反馈的较大负偏转,通常使用差异波(正反馈ERP减去负反馈ERP)来测量(Krigolson 2018;Proudfit 2015)。然而,如上所述,这种明显的阀值差异并不是由对负反馈的增强负偏转驱动的,而是由正反馈试验中的奖励阳性存在的部分抵消了潜在的N200。正如我们和其他人所争论的,fERN差异波主要由奖励阳性的存在与否驱动,而不是由对负反馈的N200的调节本身(Holroyd等人2008;Baker和Holroyd 2011)。实际上,差异波方法已成为测量奖励阳性的标准方法,因为它有效地消除了正反馈和负反馈条件下共有的神经活动——前提是两种条件下的反馈频率相同——从而将奖励阳性作为唯一由正反馈引发的正向成分分离出来(Oerlemans等人2025;Krigolson 2018)。然而,差异波方法对于本研究存在重要限制(Krigolson 2018)。首先,它无法确定与学习相关的变化是反映了对正反馈的正向增强还是对负反馈的负向减少,这对于测试RPE反向传播至关重要。其次,在PST中,正反馈发生的频率高于负反馈,这意味着差异波受到刺激频率效应的干扰(例如,异常效应,即N200对不频繁的刺激增强,无论其阀值如何),这使得无法清晰地分离奖励阳性。鉴于奖励阳性和N200在时间和空间上的重叠(Baker和Holroyd 2011),我们因此分别测量了早期和后期学习阶段中正反馈和负反馈条件下的奖励阳性幅度,以及预测线索的N200幅度。这种方法使我们能够直接跟踪奖励阳性作为N200中对正反馈的独特正向偏转,并测试它是否如TD学习理论所预测的那样从反馈转移到线索。为了测试奖励阳性是否反映了RPE反向传播,本研究检验了TD学习理论的两个具体预测。首先,随着刺激-动作-结果关联的获得,奖励阳性应该系统地从反馈转移到预测线索上,显示出彼此关联的关系,即线索相关的奖励阳性随着反馈相关的奖励阳性的减少而增加。其次,这种时间迁移应该对应于强化学习效率的行为、电生理和计算测量的个体差异。这种方法对于确定奖励阳性作为RPE信号的特异性是必要的:如果奖励阳性的时间转移确实是由学习驱动的,那么那些更快获得刺激-动作-结果关联的参与者(通过行为准确性和计算学习率参数来指数化)应该表现出更早、更完整的奖励阳性从反馈转移到预测线索。为了测试这些假设,我们使用了修改过的概率选择任务(PST)(Biernacki等人2023),这是一种标准的试错学习范式,用于研究人类强化学习的 Behavioral、计算和电生理机制(Frank等人2004,2005;Cavanagh等人2010;Cavanagh和Frank 2014)。值得注意的是,由于其原始设计在捕捉与RPE相关的电生理活动反向传播方面并不理想(见脚注2),我们增加了训练阶段的试验次数,并取消了训练到测试阶段的性能标准。我们认为这些对任务的简单修改将使我们能够系统地检查随着时间推移获得的关联时的奖励阳性在线索呈现和反馈交付。此外,为了提供学习的计算验证,我们根据个别参与者的选择行为拟合了Q学习模型(Sutton和Barto 1998;Watkins和Dayan 1992)。Q学习估计了正(αGain)和负(αLoss)RPE信号的学习率,使我们能够检查奖励阳性的个体差异是否对应于计算学习参数的差异。总的来说,这项研究提供了明确的测试,以确定奖励阳性是否反映了RPE信号的反向传播,或者反映了其他机制,如显著性处理。
2 方法
2.1 参与者招募和研究程序
共有80名健康的本科生参与了这项研究。参与者来自罗格斯大学——纽瓦克分校心理学系和新泽西理工学院。参与者因参与研究获得了课程学分或每小时25美元的报酬,此外还根据任务表现获得了金钱奖励。参与者被筛查了当前或之前的神经系统症状以及神经系统损伤的病史(例如,导致意识丧失超过5分钟的头部创伤),并被要求自我报告任何精神诊断情况。实验结束后,参与者完成了问卷调查。在对脑电图(EEG)数据进行了质量控制后,最终分析样本包括73名年龄在18至49岁之间的参与者(中位数=20岁,平均年龄±标准差=22±6岁),这些参与者自我认定为西班牙裔(n=28)、亚洲裔(n=13)、黑人(n=10)、白人(n=5)、中东裔(n=9)和混血(n=8)。本研究获得了罗格斯大学机构审查委员会的批准,所有实验均按照相关指南和规定进行。该研究遵循了1964年《赫尔辛基宣言》中表达的原则,并获得了所有参与者的知情同意。
2.2 概率选择任务(PST)
参与者完成了PST的改编版本(图1B)。原始的PST包括第三个配对(EF,分别奖励60%和40%),参与者的准确率通常处于或接近随机水平。为了使任务更易于学习,并最大化AB和CD配对的试验次数,我们从刺激集中移除了EF配对。此外,我们还移除了常用的训练-测试阶段表现标准。因此,PST由四个各包含六十次试验的区块组成(总共240次试验),随后是测试阶段。在训练阶段,参与者会看到两个刺激配对,每个刺激都与不同的“正确”或“错误”反馈的概率相关联。这些刺激配对(及其奖励概率)分别称为A/B(80%/20%)和C/D(70%/30%)。在训练阶段的过程中,参与者通常会通过基于反馈的自适应反应学会选择A而不是B,选择C而不是D。完成240次试验后,参与者进入测试阶段。在测试阶段,参与者会随机接触到这些刺激的所有可能组合(即AB、CD、AC、AD、BC、BD),并需要选择他们认为正确的符号,但不会收到关于他们选择的任何反馈。
2.3 PST行为和计算分析
按照标准做法,我们分析了AB和CD刺激配对在整个实验前半部分[区块1和2]和后半部分[区块1和2]的总体PST训练阶段准确率和反应时间。对于测试阶段,“接近学习”的准确性定义为当与刺激C或D配对时选择最常被奖励的A刺激;“回避学习”的准确性定义为当与C或D配对时选择(避免)最不常被奖励的B刺激。然后我们使用Q学习模型来拟合训练阶段的选择数据,这是一种强化学习模型,可以模拟个体在每次试验中的任务选择,以确定正向和负向RPE信号的单独学习率(Biernacki等人,2023年)。增益(αG)和损失(αL)学习率决定了近期RPE对预期价值的影响程度(Sutton和Barto,1998年;Watkins和Dayan,1992年)。简而言之,该模型为在特定状态下采取的行动分配预期奖励值(例如,在看到A/B刺激配对时选择动作A)。这些状态-动作值被称为Q值。该模型在PST的训练阶段为增益(正确,αG)和损失(错误,αL)反馈试验使用了不同的学习率参数,并分别调整了奖励和惩罚的Q值更新。在每次试验中,计算奖励预测误差(RPE)作为收到的奖励与当前刺激预期值之间的差异:RPE = R(t) − Qi(t),其中R(t)是时间t收到的奖励(正确为1,错误为0),Qi(t)是刺激i的预期值。当结果好于预期时出现正RPE,当结果不如预期时出现负RPE。然后根据学习率与RPE的乘积更新Q值,从而在每次强化后更新任何刺激(i)的预期值(Q):
2.4 数据采集与分析
脑电图(EEG)是使用32通道的actiCAP snap活性电极系统记录的,该系统与actiCAP控制盒和QuickAmp(Brain Products GmbH,德国慕尼黑)配合使用。EEG的采样频率为1000Hz,并使用Brainvision Recorder软件记录到磁盘上。接地位置设置在AFz通道,指定的在线参考通道设置为Oz通道,这两个通道都连接到actiCAP控制盒。需要注意的是,QuickAmp使用平均参考值进行在线记录,而acti-cap电极系统在采集和阻抗检查时需要一个指定的参考通道。由于这个指定参考点的信号在在线参考过程中被消耗掉,因此在离线分析时无法恢复;因此,Oz通道没有包含在最终的ERP数据集中。所有后续分析都是在数据离线重新参照到双侧乳突骨的基础上进行的。EEG信号使用Brain Vision Analyzer 2软件进行离线处理。数据经过零相位移动的巴特沃斯无限脉冲响应(IIR)滤波,低频和高频截止频率分别设置为0.1Hz和20Hz,并应用了60Hz的 notch滤波器。滤波后的信号离线重新参照到双侧乳突骨。在进行独立成分分析(ICA)之前,手动删除了噪声 segment 以校正眼动伪影。通过从FT10中减去FT9创建了一个水平眼电通道(hEOG)。Fp2通道被指定用于垂直眼动活动(vEOG)。这些眼电通道用于自动眼动ICA算法。ICA参数包括平均斜率算法,vEOG和hEOG通道使用连续数据参照到一个共同参考点,并通过扩展的Infomax ICA进行分离。收敛界限设置为1E-07,ICA步骤数量为512。ICA成分是通过与vEOG和hEOG的平方和相关性之和找到的,其中30%的方差被该成分消除。眼动校正后,数据被分割成800毫秒的时期,时间锁定到提示和反馈,从刺激前的−200毫秒到反馈后的600毫秒。然后使用−200到0毫秒的平均活动对数据进行了基线校正。伪影剔除基于±100μV的最大允许幅度和50μV的电压步长作为以下28个通道的剔除标准:C3、C4、CP1、CP2、CP5、CP6、Cz、F3、F4、F7、F8、FC1、FC2、FC5、FC6、FP1、Fz、O1、O2、P3、P4、P7、P8、Pz、T7、T8、LM和RM。在剔除伪影后,使用其四个最近邻居的信号对超出10%的通道进行了插值(Hjorth 1975;Lin等人,2022)。最后,数据被分割并平均为提示(前半部分、后半部分)和反馈(前半部分为正、后半部分为负)。整体而言,样本的数据质量非常好。伪影剔除很少,提示和反馈段的总剔除量不到0.5%。只有73名参与者中有5名需要使用Hjorth最近邻方法进行通道插值,最多每个参与者有2个通道被插值,所有参与者至少保留了28个通道进行分析。每个参与者在不同条件下的平均试验数量如下——提示锁定:前半部分(平均值=110.8,标准差=10.4),后半部分(平均值=110.4,标准差=11.9);正面反馈:前半部分(平均值=70.7,标准差=13.6),后半部分(平均值=73.1,标准差=14.1);负面反馈:前半部分(平均值=40.2,标准差=10.4),后半部分(平均值=36.4,标准差=11.1)。提示和反馈的试验次数反映了AB和CD刺激配对的组合。
2.5 奖励积极性(RewP)
虽然通常使用差异波(正面反馈ERP减去负面反馈ERP)来测量奖励积极性(Krigolson 2018),但这种方法无法确定与学习相关的变化是反映了ERP波形的积极性增加还是 negativity 减少。鉴于奖励积极性和N200成分之间的时间和空间重叠(Baker和Holroyd 2011),我们使用特定于条件的N200来测量奖励积极性。通过分别测量每种刺激类型(提示对比反馈)和学习阶段(早期对比后期)的奖励积极性幅度,我们测试了TD学习理论预测的具体时间传播动态——即,随着学习的进展,奖励积极性应在反馈时减弱并在预测性提示时出现(见图1)。更具体地说,当奖励变得可以预期时,针对正面结果的奖励积极性应该减少,从而使N200减弱,使得波形在后半部分更加负面。在提示呈现时,当提示获得预测价值时,奖励积极性应该出现,与N200重叠,使得波形在后半部分更加正面。我们通过比较训练阶段前后半部分中反馈和提示呈现时的N200幅度来测试这些预测。此外,因为PST刺激概率在刺激频率(例如,P300异常效应)和价值之间造成了混淆(Krigolson 2018),我们检查了更广泛的刺激后波形,以评估可能与其他ERP成分(P200、P300)重叠或受其调节的其他成分,为成分分离和学习相关变化提供了支持证据。因此,使用N200、P200和P300的平均幅度来测量奖励积极性,这些平均值是在围绕相应提示和反馈平均潜伏期的±25毫秒窗口内测量的。提示相关的ERP测量如下——P200峰值潜伏期(Fz):170毫秒,窗口:145–195毫秒;奖励积极性:N200峰值潜伏期(Fz):285毫秒,窗口:260–310毫秒;P300峰值潜伏期(Pz):490毫秒,窗口:465–515毫秒。反馈相关的ERP测量如下——P200峰值潜伏期(Fz):210毫秒,窗口:185–235毫秒;奖励积极性:N200峰值潜伏期(Fz):270毫秒,窗口:245–295毫秒;P300峰值潜伏期(Pz):360毫秒,窗口:335–385毫秒。需要注意的是,这种方法直接捕捉了学习过程中的奖励积极性活动,同时考虑了提示相关和反馈相关ERP之间的真实幅度和潜伏期差异。例如,N200在提示锁定ERP中的峰值潜伏期为285毫秒,而在反馈锁定ERP中为270毫秒;P300在提示中的峰值潜伏期为490毫秒,而在反馈中为360毫秒——这些差异可能反映了每种刺激类型所涉及的不同的感觉、预期和强化过程,以及刺激概率对P300潜伏期的影响。我们还创建了一个差异波(即ΔRewP),用于比较正面和负面条件(H1和H2)以及提示之间(H1对比H2)的奖励积极性地形。
2.6 个体差异分析
为了研究奖励积极性动态是否与个体在强化学习效率上的差异相对应,我们使用实验前半部分的训练阶段准确率得分将参与者分为两组(快速学习者和慢速学习者)。然后,将学习者组作为一个被试间因素,重复进行行为和ERP分析。此外,为了研究强化学习效率的计算差异是否与观察到的行为和电生理差异相对应,我们比较了快速学习者组和慢速学习者组之间的Q学习模型参数(αGain、αLoss和逆温度β)。在ERP分析中,我们对N200振幅进行了重复测量方差分析(REMA),以半组(Half-1、Half-2)和反馈类型(Positive、Negative)作为组内因素,学习者组(Rapid、Slow)作为组间因素。差异波(ΔRewP)仅用于可视化和地形图绘制目的。
3 结果
3.1 PST 行为表现
在训练阶段,Half-2组的准确性(在选择每对中的最佳刺激时)高于Half-1组(M = 82.5%,SEM = 2.1对比Half-1组(M = 74.7%,SEM = 2.2),t(72) = −5.12,p < 0.001,d = 0.60),表明准确性在训练过程中有所提高(图2A)。同样,Half-2组的训练阶段反应时间也更快(M = 807.5 ms,SEM = 36.4对比Half-1组(M = 873.1 ms,SEM = 39.2),t(72) = 3.19,p = 0.002,d = 0.37(图2B)。在测试阶段,接近(Approach)和回避(Avoidance)条件下的准确性没有差异(M = 69.3%,SEM = 2.5对比M = 72.9%,SEM = 3.0),t(72) = −0.82,p = 0.416,这表明对奖励和惩罚关系的学习能力相当。然而,参与者在选择最有益的刺激A(M = 1145.7 ms,SEM = 67.2)时比避免最不有益的刺激B(M = 1335.9 ms,SEM = 75.0)时更快,t(72) = −3.45,p = 0.001,d = 0.40,这表明在测试阶段接近选择比回避选择决策更快(图2B)。没有观察到其他主要效应(p > 0.05)。
3.2 奖励积极性结果
TD学习理论的一个关键预测是,随着学习的进行,RPEs应该从结果呈现的时间转移到更早的预测线索。由于奖励积极性和N200在空间和时间上重叠,奖励积极性的存在或缺失直接决定了观察到的波形:当存在时,它会抵消N200,使波形更加积极;当缺失时,N200会更加明显,波形更加消极(Baker和Holroyd 2011)。因此,我们预测在两个阶段之间会有相反的变化。在反馈时,对积极结果的奖励积极性应该随着奖励变得可预期而减少,从而在第二个阶段暴露N200,使波形更加消极。在线索呈现时,随着线索获得预测价值,奖励积极性应该出现,与N200重叠,使波形在第二个阶段更加积极。我们通过比较训练阶段前后两个阶段的ERP振幅来检验这些预测(图3A、B)。
3.3 P200和P300
为了确保观察到的效应是特定的奖励积极性效应,而不是由其他ERP成分引起的,我们检查了P200和P300。这些成分已知对刺激的显著性和概率(异常球效应)敏感,如果控制不当,可能会混淆奖励积极性效应的解释。关于线索,虽然P200的振幅在任务的两个阶段之间也有差异(t(72) = −2.34,p = 0.03,d = −0.16),但在P300振幅上没有观察到差异(p = 0.95)。关于反馈,以反馈(Positive vs. Negative)和半组(Half-1,Half-2)为因素进行的P200振幅的双因素重复测量方差分析显示了组的主要效应(F(1, 72) = 34.35,p < 0.001,η2 = 0.32),表明实验前半部分的P200更大(均值 = 8.0 μV,SEM = 0.65)相比后半部分(均值 = 6.3 μV,SEM = 0.59)。没有观察到其他主要效应或交互作用(p > 0.05)。关于P300,分析显示了反馈的主要效应(F(1, 72) = 41.15,p < 0.001,η2 = 0.36),表明负反馈引起的P300更大(均值 = 10.3 μV,SEM = 0.80)相比正反馈(均值 = 7.3 μV,SEM = 0.69)。此外,还观察到了组的主要效应(F(1, 72) = 58.56,p < 0.001,η2 = 0.45),表明实验前半部分的P300更大(均值 = 10.4 μV,SEM = 0.75)相比后半部分(均值 = 7.2 μV,SEM = 0.73)。重要的是,反馈×半组的交互作用显著(F(1, 72) = 4.425,p = 0.039,η2 = 0.49)。配对样本t检验显示,在实验前半部分,正反馈(均值 = 3.45 μV,SEM = 0.75)和负反馈(均值 = 1.92 μV,SEM = 0.83)之间有显著差异,t(72) = 2.81,p = 0.006,d = 0.23。实际上,图3B(左图)的视觉检查显示,正反馈引起的ERP正向偏移(或N200减小)比负反馈(或N200增大)更大。相比之下,在实验后半部分,正反馈(均值 = 1.73 μV,SEM = 0.71)和负反馈(均值 = 1.10 μV,SEM = 0.80)引起的N200振幅大致相等(t(72) = 1.14,p = 0.26,d = 0.10,图3B,右图)。鉴于我们认为N200振幅在正负反馈之间的变化可能是由于正向ERP成分(奖励积极性)的叠加,这一结果表明在Half-1中正反馈试验期间存在奖励积极性,而在Half-2中则不存在,从而暴露了N200。值得注意的是,这一结果主要由反馈之间奖励积极性振幅的变化驱动(ΔRewP = 1.7,SEM = 0.37;t(72) = 4.69,p < 0.001,d = 0.27),相对于负反馈(ΔRewP = 0.8,SEM = 0.42;t(72) = 1.94,p = 0.057,d = 0.12)。关于线索,配对样本t检验显示,Half-2中的N200振幅更积极(均值 = −1.5 μV,SEM = 0.44)相比Half-1(均值 = −2.7,SEM = 0.44),t(72) = −5.33,p < 0.001,d = −0.31(图3A)。进一步地,当作为差异波测量时(图3C,左图),线索相关的ΔRewP(Half-2减去Half-1)和反馈相关的ΔRewP在Half-1中表现出额叶-中央头皮分布,最大值在Fz通道(图3D),这一发现与之前关于奖励积极性的报告一致。这些结果表明,正反馈在Half-1中引发了奖励积极性,而在Half-2中则没有。这些证据表明,一旦受试者学会了预测反馈结果的线索(和正确反应),线索而不是反馈引发了奖励积极性,证实了奖励积极性振幅作为正向RPE信号的功能,并反映了TD学习理论预测的状态-动作值的更新。
3.4 强化学习的个体差异
如果奖励积极性振幅的变化确实反映了TD学习动态,那么个体学习速率的差异应该与奖励积极性变化的个体差异系统相关。具体来说,那些更快学习刺激-奖励关联的参与者应该在实验的前半部分和后半部分之间表现出更大或更快的奖励积极性变化。这一预测直接来自TD理论:学习速度更快的人应该更快地累积预测错误,导致奖励积极性信号在时间上更快地向后迁移。为了验证这一预测,我们使用实验前半部分的训练阶段准确性得分将参与者(中位数分割)分为两组:“快速学习者”(n = 35,Half-1中的准确率得分≥ 77)和“慢速学习者”(n = 38,Half-1中的准确率得分≤ 77.5)。然后我们重复了上述的行为(图4A)和ERP(图5)分析,但包括了学习者组。此外,为了研究不同学习者组之间的强化学习计算差异,我们使用Q学习模拟了PST表现(图4B)。为了减少与前述结果的重复,我们的统计报告集中在组间效应和交互效应上。
3.5 行为结果
对于训练阶段的表现,简单效应分析显示,慢速学习者(Half-1:均值 = 60%,SEM = 1.7 | Half-2:均值 = 71%,SEM = 2.1,t(71) = 4.99,p = 0.001,d = 0.83)和快速学习者(Half-1:均值 = 90%,SEM = 1.8 | Half-2:均值 = 96%,SEM = 2.2,t(71) = 2.31,p = 0.024,d = 0.39)在两个阶段之间的准确性都有所提高(图4A)。关于测试阶段的表现,以刺激条件(接近和回避)和学习者组(快速对比慢速)为因素的方差分析显示了学习者组的边际主要效应(F(1, 71) = 3.825,p = 0.05,η2 = 0.05,d = 0.47)。没有观察到刺激条件的主要效应(p = 0.445)或交互作用(p = 0.206)。探索性分析显示,快速学习者在接近学习中的表现显著更好(尝试:均值 = 76%,SEM = 3.5)相比慢速学习者(均值 = 63%,SEM = 3.4),t(71) = 2.47,p = 0.01,d = 0.59),而在回避学习中没有观察到组间差异(快速学习者:均值 = 73%,SEM = 4.4 | 慢速学习者:均值 = 73%,SEM = 4.2,p = 0.901)(图4C)。这些发现表明,组间的学习差异仅限于接近学习,两组在回避学习能力上表现相当。接下来,对测试阶段反应时间的分析显示,刺激条件具有主效应,F(1, 71) = 12.725, p < 0.001, η2 = 0.15,避避试验的反应时间整体更慢(平均时间 = 1339 ms,标准误差 = 75 ms),而接近试验的反应时间更快(平均时间 = 1145 ms,标准误差 = 68 ms)(见图4C右侧面板)。反馈与组别的交互作用较小,F(1, 71) = 2.913, p = 0.092, η2 = 0.04。简单效应分析表明,快速学习者在避避试验中的反应时间显著更长(平均时间 = 1412 ms,标准误差 = 108 ms),而接近试验的平均时间较短(平均时间 = 1126 ms,标准误差 = 98 ms),t(71) = 3.66, p < 0.001, d = 0.62。相比之下,慢速学习者在接近试验和避避试验之间的反应时间没有显著差异(平均时间分别为1164 ms,标准误差 = 94 ms和1265 ms,标准误差 = 104 ms),p = 0.183。学习者组别之间没有观察到主效应(p = 0.684)。
3.6 Q学习结果
关于学习速率,对学习速率值进行重复测量方差分析(ANOVA),以学习速率(αGain, αLoss)作为组内因素,学习者组别(快速学习者与慢速学习者)作为组间因素,结果显示学习速率具有主效应,F(1, 71) = 17.017, p < 0.001, η2 = 0.19,表明从奖励中学习(αGain;平均值 = 0.34,标准误差 = 0.03)比从损失中学习(αLoss;平均值 = 0.17,标准误差 = 0.03)更有效。有趣的是,该分析还揭示了学习速率与学习者组别之间的显著交互作用,F(1, 71) = 8.893, p = 0.004, η2 = 0.11(见图4B)。这种交互作用表明,快速学习者的αGain值显著更高(平均值 = 0.42,标准误差 = 0.05),而慢速学习者的αGain值较低(平均值 = 0.26,标准误差 = 0.05),t(71) = 2.41, p = 0.01, d = 0.57。相比之下,两组在αLoss值上没有显著差异(p = 0.111;见图4B)。此外,对逆温度参数(β)的分析显示,快速学习者的β值显著更高(平均值 = 4.99,标准误差 = 0.01),而慢速学习者的β值较低(平均值 = 4.01,标准误差 = 0.23),t(71) = 4.13, p < 0.001, d = 0.97,这表明快速学习者在选择行为上更加确定(即更倾向于选择预期价值最高的选项)。
3.7 ERP结果
关于反馈,对N200振幅进行重复测量方差分析,以“一半”(Half-1, Half-2)和“反馈”(Positive, Negative)作为组内因素,学习者组别(快速学习者,慢速学习者)作为组间因素,结果显示“一半”与学习者组别之间存在显著交互作用,F(1, 71) = 7.600, p = 0.007, η2 = 0.097(见图5B,D)。事后检验表明,快速学习者的N200振幅在“一半1”(平均值为2.22 μV,标准误差 = 1.1)和“一半2”(平均值为0.033 μV,标准误差 = 0.99)之间有显著下降,t(34) = 4.62, p < 0.001, d = 0.78,而慢速学习者则没有这种变化(“一半1”平均值=3.1 μV,标准误差=1.1 | “一半2”平均值=2.7 μV,标准误差=1.0,t(37) = 0.98, p = 0.33, d = 0.16)。然而,探索性分析发现两组之间存在差异:慢速学习者在“一半1”中对正面和负面反馈有明显区分,t(37) = −6.02, p < 0.001, d = 0.48,而在“一半2”中则没有这种差异,t(37) = 1.1, p = 0.27, d = 0.18,这表明在训练阶段奖励的正面效应逐渐传播(见图6B)。相比之下,快速学习者在“一半1”和“一半2”中对正面和负面反馈没有差异,t(34) = 0.87, p = 0.394, d = 0.14或t(34) = 0.396, p = 0.70, d = 0.06,这可能表明奖励的正面效应在训练早期就已经传播到了提示信号(例如,第1个阶段)(见图6B)。没有观察到其他交互作用(p > 0.05)。关于与提示相关的ERP,对N200振幅进行重复测量方差分析,以“一半”(Half-1, Half-2)和学习者组别(快速学习者,慢速学习者)作为因素,结果显示“一半”与学习者组别之间存在交互作用,F(1, 61) = 8.56, p = 0.005, η2 = 0.12(见图5A,C)。事后检验表明,慢速学习者在“一半1”(平均值 = −2.83 μV,标准误差 = 0.64)和“一半2”(平均值 = −1.21 μV,标准误差 = 0.55 | ΔRewP = −1.61 μV,标准误差 = 0.32,t(37) = −6.02,p < 0.001,d = −0.97)之间的N200振幅差异大于快速学习者(“一半1”平均值 = −2.56 μV,标准误差 = 0.60 | “一半2”平均值 = −1.85 μV,标准误差 = 0.69,t(34) = −2.04,p = 0.04,d = −0.35)(见图6A)。换句话说,慢速学习者在“一半1”和“一半2”之间的N200振幅差异(即ΔRewP)更大(ΔRewP = −1.78 μV,标准误差 = 0.32),而快速学习者的ΔRewP较小(ΔRewP = −0.42 μV,标准误差 = 0.33),t(61) = 2.93, p = 0.005)。
4 讨论
TD学习为许多(但不是所有)与提示/状态价值变化相关的学习现象提供了一个简洁且合理的计算解释(Sutton和Barto 1998)。因此,当事件好于预期时,多巴胺活动会增强(正向RPEs),而当事件不如预期时,多巴胺活动会暂时停止(负向RPEs)(Schultz 2002)。随着学习的发生,正向RPEs被假设从奖励结果传递到预测性刺激,并被送到MCC(纹状体丘脑复合体),在那里它们被用来学习选择和驱动目标导向行为的价值(Holroyd和Coles 2002;Holroyd和Yeung 2012)。我们认为,可以使用奖励正面性(Baker和Holroyd 2009, 2011;Holroyd等人2008)可靠地测量正向RPE信号对MCC的影响。支持这一观点的先前研究表明,奖励正面性符合RPE信号的公理定义,即它对奖励的先验可能性和接收时的强度都敏感(Sambrook和Goslin 2015;Walsh和Anderson 2012)。此外,该成分的时间动态(240-340 ms)与直接从人类中脑多巴胺核记录的RPE信号一致(Zaghloul等人2009),受到影响前额叶多巴胺D4受体表达的基因多态性的调节(Baker, Stockwell等人2016),并在非人类灵长类动物中被多巴胺拮抗剂氟哌啶醇减弱(Vezoli和Procyk 2009)。尽管有这些一致的证据,但关键预测——即奖励正面性应该随着学习的进行而从反馈传播到预测性提示——尚未得到完全证明。在这里,我们提供了这一基本过程的确切证据。首先,我们的发现表明,当参与者在概率选择范式中学习刺激-行动-结果关联时,奖励正面性从学习早期的正向反馈引发,转变为学习后期的预测性提示引发的。更详细地说,早期训练阶段(“一半1”)显示的奖励正面性是由正向反馈引发的,这与先前文献中的发现一致,即意外的积极结果会产生正向RPE信号。这种与反馈相关的奖励正面性在训练的后半段(“一半2”)减弱了,因为结果变得更加可预测。值得注意的是,这种减少主要是由正向反馈引发的ERP变化驱动的,而不是负向反馈(即从“一半1”到“一半2”,正向反馈ERP的积极性减弱,而负向反馈ERP在同一时期变化不大)。这种模式表明,奖励正面性成分是通过从积极结果中学习而选择性调节的,而不是反映了普遍的期望变化或对积极和消极结果的同等影响。重要的是,随着学习的进行,奖励正面性的减弱暴露了正向反馈试验中的N200波形,这与N200通常由任务相关事件引发但在有意外积极反馈的试验中被抑制的观点一致(见图1)。这种奖励正面性与N200之间的分离也在其他情境中被观察到。例如,增加的反馈刺激复杂性可以延迟奖励正面性的出现,从而在有奖励和无奖励的试验中都暴露了底层的N200成分(Baker和Holroyd 2011)。同样,对物质依赖个体的研究表明,他们对奖励反馈的N200反应与他们对非奖励反馈的N200反应相似,这表明在该群体中奖励反馈未能引发预期的奖励正面性(Baker, Stockwell等人2016;Baker等人2011;Biernacki等人2020)。这些例子说明了如何实验性地分离奖励正面性和N200,同时也表明随着参与者学会预测结果,奖励正面性会具体减弱,这支持了奖励正面性索引正向RPE信号的观点。虽然这种反馈模式与反向传播一致,但关键证据将是显示奖励正面性随着提示本身获得预测价值而出现。与这一预测一致的是,我们在“一半2”中观察到奖励正面性向提示的出现,表明预测价值已经从反馈传播到了先前的提示对。重要的是,这种与提示相关的奖励正面性在N200时间窗口(大约270 ms)出现,这在时间和空间上与N200成分重叠,使得整体ERP波形看起来更积极。正如我们在其他地方争论的,奖励正面性不是一个离散的成分,而是与N200以及其他相邻的ERP成分重叠(Baker和Holroyd 2011)。例如,与提示相关的P200振幅的边际增加可能反映了正在出现的奖励正面性的溢出效应,而在N200时间窗口中测量到的更大效应表明,主要的奖励正面性活动发生在预测的潜伏期(240-340 ms),而不是在更早(P200)或更晚(P300)的时间范围内。值得注意的是,与反馈相关的P200振幅从“一半1”到“一半2”减小,这与训练过程中奖励正面性的减弱一致。此外,通过差异波测量的与提示相关和反馈相关的奖励正面性的地形分布显示了奖励正面性的特征性前额-中央头皮分布。这表明,由提示和反馈引发的奖励正面性可能反映了来自类似神经生成器的活动,特别是MCC(Baker和Holroyd 2011;Oerlemans等人2025)。总之,这种奖励正面性振幅的模式支持TD学习算法的核心预测,即RPE信号应该随着关联的学习而从结果传播到预测性提示,并将我们的结果与之前仅报告提示相关ERP活动但没有展示真正学习依赖性反向传播过程的研究区分开来(Baker和Holroyd 2009;Holroyd等人2011)。从计算角度来看,随着经验积累,状态-行动对的价值函数(看到AB对 → 选择A)增加,提示本身应该引发正向RPE信号,而不是随后的反馈。这种反向传播机制是强化学习系统学习从越来越远的提示预测奖励的基础,被认为支持了目标导向行为的发展(Schultz 2011;Redish等人2008;Grace等人2007)。我们的发现进一步表明,奖励正面性提供了一个可靠的电生理标志,用于实时跟踪这种反向传播过程,提供了奖励预测价值在人类强化学习过程中传输的直接神经测量。此外,奖励正面性在预测性提示中的出现支持了动机“渴望”解释,而不是享乐“喜欢”解释。特别是,享乐解释基于几个最近的观察结果,即奖励正面性与参与者自我报告的反馈刺激的喜欢程度相关,并且会被积极情感刺激增强(Brown和Cavanagh 2018;Singh等人2023)。其他人报告说,奖励正面性与个体对奖励反应的差异和外向性相关,可以通过情绪调节策略进行调整,并且在抑郁状态下会减弱——这种状态的特点是享乐能力降低(Proudfit 2015)。尽管这些研究使用了猜测或赌博任务,而不是专门设计用来测试基于RPE的学习的范式,这可能限制了它们对RPE处理的计算解释的相关性。尽管如此,这些发现仍然表明奖励正面性反映了大脑对享乐价值的评估(即从奖励结果中得到的主观愉悦)。与这种观点相反,我们观察到的系统时间迁移——即奖励正面性从反馈传播到预测性提示——与纯粹的享乐解释不一致。这种模式表明,奖励正面性与预测性结果的不可预测性相关,而不是与奖励的享乐价值相关。这与奖励正面性与奖励处理的一般观点不同,因为奖励正面性与预测性结果的不可预测性相关。虽然其他理论也提出奖励的正性反映了显著性预测误差——即无论价值如何,都会对任何具有动机意义的结果作出反应(Talmi等人2013年;Brown和Cavanagh 2018年),但目前的发现也反驳了这种解释。值得注意的是,显著性理论对应于一种无符号预测误差的概念,这种误差会对任何令人惊讶的结果作出反应,而不管结果是好是坏,因此不会区分正负的RPE( rewarding prediction error)。相比之下,TD学习理论描述的是一种有符号的RPE,它具有价值特异性:当结果超出预期时为正,未达到预期时为负。关键的是,本研究中观察到的与学习相关的变化主要是由正向反馈驱动的——在正向反馈下奖励的正性降低,并在学习过程中随着预测线索的出现而显现,而负向反馈的ERP(event-related potential)则相对稳定。根据无符号显著性理论,正向和负向反馈都应该显示出相似的学习相关调节,因为两者都是具有动机意义的结果。只有正向反馈能够驱动这种时间上的转移,这一点与有符号RPE理论完全一致,与无符号显著性理论直接矛盾。奖励正性从反馈到预测线索的系统性时间转移进一步强化了这一结论,因为根据显著性理论,奖励正性应该始终与序列中最具有动机意义的事件相关联,而不受学习程度的影响。反对显著性理论的证据还包括Heydari和Holroyd(2016年)的研究,他们通过比较金钱奖励反馈和身体疼痛惩罚反馈直接测试了这一假设。尽管惩罚刺激被认为同样显著,但在标准的主动强化学习范式中,它未能引发奖励正性,这一结果与显著性预测误差理论直接相悖,反而支持了奖励正性代表一种有符号的、价值特异性的RPE信号的观点(Heydari和Holroyd 2016年)。
接下来,为了考察RPE动态是否与个体学习效率的差异相关,我们根据前半段的表现将参与者分为快速学习者和慢速学习者两组。这种个体差异分析揭示了行为、计算和电生理测量方面的共性模式,这些模式阐明了学习效率背后的机制。在行为上,快速学习者在第一块任务中就达到了大约90%的准确率,并在整个训练阶段保持这种高性能。相比之下,慢速学习者的进步更为渐进,需要在所有块中积累更多经验才能达到类似的准确率。与这些行为结果一致的是,快速学习者的αGain值显著更高,表明他们在获得正向反馈后对动作值的调整更大。在Q-learning框架中,学习率(α)决定了预测错误后的价值更新幅度——当一个动作带来超出预期的结果(正RPE)时,该状态-动作对的Q值会被更新。更高的αGain意味着快速学习者每次获得奖励体验时都能更快地积累价值估计,从而在最优(选择A而非B)和次优动作之间形成更陡峭的价值梯度。此外,快速学习者的逆温度(β)值也显著更高,表明他们的选择行为更为确定——他们更一致地利用所学的价值,而不是探索替代方案。在αLoss方面没有组间差异,这表明学习效率的差异特定于正向反馈的处理。这种较高的αGain(更快的价值学习)和较高的β(更一致的价值利用)的协同效应,共同构成了一个计算上的强化学习效率提升特征。奖励正性的系统性时间转移进一步支持了这一结论,因为根据显著性理论,奖励正性应该始终与序列中最具动机意义的事件相关联,而不管学习已经进行了多少。反对显著性理论的证据还来自Heydari和Holroyd(2016年)的研究,他们通过比较金钱奖励反馈和身体疼痛惩罚反馈直接验证了这一假设。尽管惩罚刺激被认为同样显著,但在标准的主动强化学习范式中,它未能引发奖励正性,这一结果与显著性预测误差理论直接矛盾,反而支持了奖励正性代表一种有符号的、价值特异性的RPE信号的观点。
为了进一步检验RPE动态是否与个体学习效率的差异相关,我们根据前半段的表现将参与者分为快速学习者和慢速学习者两组。这种个体差异分析揭示了行为、计算和电生理测量方面的共性模式,这些模式阐明了学习效率背后的机制。在行为上,快速学习者在第一块任务中就已经达到了大约90%的准确率,并在整个训练阶段保持这种高水平的表现。相比之下,慢速学习者的进步更为渐进,需要在所有块中积累更多经验才能达到类似的准确率。与这些行为结果一致的是,快速学习者的αGain值显著更高,表明他们在获得正向反馈后对动作值的调整更大。在Q-learning框架中,学习率(α)决定了预测错误后的价值更新幅度——当一个动作带来超出预期的结果(正RPE)时,该状态-动作对的Q值会被更新。较高的αGain意味着快速学习者每次获得奖励体验时都能更快地积累价值估计,从而在最优(选择A而非B)和次优动作之间形成更陡峭的价值梯度。此外,快速学习者的逆温度(β)值也显著更高,表明他们的选择行为更为确定——他们更一致地利用所学的价值,而不是探索替代方案。在αLoss方面没有组间差异,这表明学习效率的差异特定于正向反馈的处理。这种较高的αGain(更快的价值学习)和较高的β(更一致的价值利用)的协同效应,共同构成了一个计算上的强化学习效率提升特征。由此可以看出,这些计算差异对RPE反向传播的时间动态具有直接的神经学影响。慢速学习者在第一半部分和第二半部分之间展示了更明显的线索相关奖励正性变化,表明随着关联的建立,RPE信号从反馈到预测线索的转移更为渐进。在反馈时,慢速学习者在第一半部分对正向和负向反馈的N200反应存在差异,但在第二半部分则没有这种差异,这表明随着结果的预期化,反馈时的奖励正性逐渐减弱,同时线索相关的奖励正性开始显现。这种模式直接反映了理论预测,即随着学习的进展,RPE信号应该向后时间迁移。相比之下,快速学习者的奖励正性特征有所不同。他们在前后半部分之间显示出的线索相关奖励正性变化较小——这并非因为学习效果较弱,而可能是因为在训练早期就已经发生了价值转移。鉴于快速学习者在第一块任务中就达到了90%的准确率,并且第一半部分的测量结果涵盖了第1至第2块任务,这些参与者很可能在第一个测量窗口之前就已经完成了大部分反向传播过程。支持这一解释的是,快速学习者在第二半部分的反馈相关ERP总体更为负,表明在第二半部分反馈时,奖励正性已经完全消失。此外,快速学习者在两个学习阶段中对正向和负向反馈的N200反应都没有差异,尽管在整个实验过程中他们都主观上感觉到正向反馈是有奖励的。如果奖励正性代表愉悦感,那么这些参与者应该在所有学习阶段都对奖励反馈表现出差异性反应。然而,快速学习者在反馈时缺乏奖励正性,这表明奖励预测在训练早期就已经建立——线索很快就获得了预测价值,因此反馈不再产生正RPE。这种行为、计算和电生理测量方面的证据一致表明,强化学习效率的个体差异主要由正向RPE处理的速率驱动。较高的αGain加速了线索处的价值积累,导致奖励正性从反馈到线索的时间转移更快。我们观察到的奖励正性变化具体反映了正RPE的反向传播,因为奖励正性从反馈转移到了线索,而负向反馈处理在各个组和学习阶段都相对稳定。αGain与学习效率之间的关系可能反映了潜在的多巴胺机制。在TD学习理论中,相位性的多巴胺爆发编码了正RPE,这些信号驱动皮质-纹状体回路的突触可塑性,以更新动作价值(Cavanagh等人2010年)。这些多巴胺信号的强度或可靠性差异会在计算上表现为学习率参数的差异——对正面结果更强烈或更可靠的多巴胺反应会表现为更高的αGain值,导致每次试验的价值更新更大。与此解释一致的是,增强多巴胺信号的实验操作已经被证明可以增加PST(Probabilistic Strength Theory)中的正向学习率。例如,低剂量D2受体拮抗剂(据推测可以增加纹状体中的多巴胺可用性)(Frank和Fossella 2011年)和香烟消费(会急性增加多巴胺释放)(Baker等人2018年)都能增强来自正向反馈的学习,并增加模型衍生的αGain参数。同样,重复经颅磁刺激(10-Hz TMS)作用于左侧背外侧前额叶皮层——这会增加扣带回皮层和纹状体中的多巴胺释放——已被证明可以选择性地增强增益学习率相对于损失学习率(Biernacki等人2023年)。使用10-Hz协议的TMS研究还表明,增强多巴胺活性不仅可以计算上增强正向学习率,还可以正常化那些对非药物奖励反应迟钝的个体的奖励正性(Biernacki等人2020年,2025年)。总之,这项研究为人类强化学习过程中正RPE信号的反向传播提供了强有力的支持,这种反向传播通过奖励正性的系统性变化得以体现。目前的发现扩展了先前的研究,表明自然发生的αGain个体差异——无论反映了多巴胺功能的特质级变异、受体密度还是其他神经认知因素(Woodward等人2009年)——既可以预测行为学习的速度,也可以预测神经学习信号的时间动态,这些信号由奖励正性捕获。奖励正性幅度从反馈到线索的时间转移支持了学习模型的核心预测,并表明MCC(middle cortical complex)实现了用于学习预测关联的机制。这些神经动态的个体差异似乎与学习效率相关,这对理解正常变异和潜在的临床应用具有重要意义。例如,抑郁症、物质使用障碍和精神分裂症等病症都与多巴胺功能改变和强化学习缺陷有关,了解这些人群中奖励正性信号的时间动态差异可以为理解这些病症的神经机制提供关键见解。
4.1 未来方向和临床意义
这里报告的奖励正性发现对ERP(event-related potential)方法和临床研究都有重要意义。以往使用概率学习范式的EEG(electroencephalography)研究主要关注正向反馈与负向反馈的比较,而没有考虑这些反应随学习进展而变化的情况,通常会对整个实验的ERP进行平均处理。这种平均方法忽略了学习过程中的关键动态,并可能将学习的不同阶段与不同的ERP成分混淆(Krigolson 2018年)。例如,与奖励正性的发现相反,P300成分在整个学习阶段都保持稳定,在第一半部分和第二半部分,负向反馈引起的P300始终大于正向反馈,且反馈类型和学习阶段之间没有显著交互作用。实验中正向和负向反馈之间稳定的差异表明,P300可能反映了刺激概率效应,而不是学习特定的变化(例如,负向反馈发生的试验比例为20%-40%,比正向反馈少见)。两个学习阶段中负向反馈引起的P300更稳定且更大,这与众所周知的“异常效应”一致,即P300(在某些情况下还包括N200)会对不常见或意外的刺激有所增强,无论其价值或学习重要性如何(Hajihosseini和Holroyd 2013年;Holroyd等人2008年)。此外,虽然正RPE显然会随着学习而反向传播(奖励正性发生变化),但负向反馈的ERP却没有显示出类似的调节。这提出了一个基本问题:负RPE是否真的驱动基于线索的学习,或者它们是否扮演了不同的计算角色,例如触发错误后的即时行为适应?或者,当前的PST范式或ERP测量方法可能对负RPE的反向传播不敏感,因此需要未来的研究来验证。这些方法学考虑也对临床研究具有重要意义,因为在临床研究中,ERP测量通常与心理健康状况(如抑郁症、焦虑症和物质使用障碍)相关。临床研究通常使用宽时间窗口(例如平均幅度200-450毫秒)或基线到峰值的测量(P200-P300或N200-P300)来捕捉来自不同神经系统的重叠过程:奖励系统(奖励正性)、认知控制系统(N200)和注意/唤醒系统(P300)(Krigolson 2018年)。在负向反馈通常较少的概率学习任务中,这些测量方法将价值与频率效应混淆,使得无法确定是哪个系统驱动了观察到的临床差异(Hajihosseini和Holroyd 2013年;Krigolson 2018年)。考虑在概率学习过程中测量P3-FRN(P300和N200之间的幅度差异)。一项研究发现,焦虑与个体负面RPE在惩罚锁定P3-FRN成分中的反映程度强烈相关——意味着更焦虑的个体对意外负面结果的神经编码更强(Cavanagh等人2019年)。另一项研究发现,抑郁症患者表现出更高的P3-FRN(但P2-FRN测量除外),这被解释为对负面结果的过度敏感(Cavanagh等人2011年)。由于P3-FRN是通过差值(P300-N200)计算的,因此相同的升高分数可能是由P300增强、N200增强或两者共同作用引起的,因此难以确定是哪种潜在的神经过程驱动了焦虑和抑郁的发现。这种模糊性进一步复杂化,因为对焦虑的元分析显示N200/FRN/FMT的增强反映了认知控制的改变(Cavanagh和Shackman 2015年),而焦虑障碍与去甲肾上腺素调节失调密切相关(Bandelow等人2016年,2017年)——这种系统调节对动机相关刺激的P300反应(de Rover等人2015年;Nieuwenhuis等人2005年,2011年)。然而,焦虑中的P300反应差异很大:对不可预测或显著刺激的反应增加,而在恐慌障碍或强迫症中减少,或者在特定情境下不变(Zhu等人2024年)。这种解释上的挑战还因为有证据表明“异常N2”本身可能反映了去甲肾上腺素对任务相关皮质区域的调节(Warren等人2011年),可能与P300(即N2-P3复合体)共享神经生物学机制,而不是代表一个独立的认知控制信号。在没有方法论精确性的情况下,无法区分这些不同的神经系统——包括更窄的测量窗口和将价值与频率分离开来的实验设计(例如,具有相等结果概率的奖励任务)。临床发现可能会错误地将ERP差异归因于其他因素,从而可能误导治疗方案。此外,由于很少有研究关注与线索相关的ERP,TD学习理论中的反向传播预测基本上没有得到验证,这些预测可能对中脑皮层边缘系统的失调更加敏感。这对于理解学习的正常变异、发展以及研究精神疾病状况具有重要意义。例如,快速学习者和慢速学习者在奖励积极性变化上的差异模式表明,个体在学习效率方面的差异反映在强化学习过程中的神经动态的不同模式上。因此,如果不考虑时间动态,某一组中奖励积极性的降低可能反映了更快的学习速度或奖励处理能力受损,而奖励积极性的增强则可能反映了更慢的学习速度或增强的奖励敏感性。无论这些成分是在时间域还是频率域中测量的,未来的研究都需要将它们与注意力、刺激频率处理和一般预期违反等重叠的认知结构区分开来。只有通过这种方法论精确性,该领域才能获得可靠的强化学习机制测量结果,从而推动理论理解和临床应用的发展。
作者贡献:
- Robert Wilson:写作、审稿和编辑。
- Yifan Gao:写作(初稿)、方法论、审稿和编辑、形式分析、数据分析、研究。
- Travis E. Baker:概念化、研究、资金获取、写作(初稿)、方法论、形式分析、项目管理、可视化、数据分析、监督。
- Galit Karpov:方法论、审稿和编辑、形式分析、数据分析、研究。
致谢:
我们感谢Mei-Heng Lin和Malte Güth在数据收集方面提供的帮助。作者使用Claude(Anthropic)软件对文本的清晰度进行了评估,并在最终准备过程中提出了相关的编辑建议。所有科学内容、数据分析、解释和结论均为作者本人的工作。
资助:
本项工作得到了Rutgers Start-up基金(针对T.E.B.)和Rutgers酒精研究中心的种子基金(针对T.E.B.)的支持。
利益冲突:
作者声明没有利益冲突。
注释:
1. 成分重叠指的是ERP成分在时间和空间上本质上是相互重叠的,即头皮上的电压变化反映了多种潜在神经过程的叠加。在N200(负偏转)和奖励积极性(正偏转)的情况下,这些成分在正反馈之后同时产生。由于它们的极性相反,在额中央头皮电极处它们的电场会相互抵消,导致在奖励试验中N200看起来较小或消失。因此,历史上定义为正反馈时N200的较大负偏转(fERN)主要是由奖励积极性引起的,而不是由负反馈本身导致的负偏转增强所致。
2. 在标准的PST(概率刺激任务)中,参与者在满足高于随机水平的绩效标准后进入测试阶段(AB任务中为65%的正确率,CD任务中为60%的正确率),或者如果没有达到标准,则在六个区块(360次试验)后进入测试阶段。这种设计使参与者在掌握线索-动作-结果关联后立即进入测试阶段,因此在学习发生后几乎没有或完全没有训练试验——这正是预期出现RPE反向传播ERP特征的时候。因此,参与者之间试验数量的变异性以及缺乏学习后的试验对于分析反馈和线索之间的RPE反向传播并不理想。
数据可用性声明:
支持本研究结果的数据可向相应作者申请获取。由于隐私或伦理限制,这些数据不对外公开。