你是否想过,大脑是如何从同一个“奖励”信号中,学习到哪些行为有价值,并瞬间驱动身体做出迅捷动作的?这背后,两种关键的化学信使——多巴胺(DA)和乙酰胆碱(ACh)——在纹状体(大脑基底神经节的关键输入核团)中上演着精密的“双人舞”。多巴胺神经元以其“奖励预测误差”(Reward Prediction Error, RPE)信号而闻名,即当实际奖励超过或低于预期时,会释放多巴胺,驱动强化学习。同时,多巴胺也与运动启动、活力和帕金森病等运动障碍密切相关。然而,一个长期悬而未决的问题是:接收多巴胺信号的纹状体主要神经元(中型多棘神经元,MSNs)如何“解读”这些看似混杂的学习和运动信号?传统理论曾推测,可能由不同的多巴胺神经元群体分别编码。但越来越多的证据表明,在同一个记录位点(如背内侧纹状体,DMS)就能同时观察到与RPE和运动相关的多巴胺信号。那么,纹状体环路是如何“分拣”这些功能各异的多巴胺信号的?
由Jang等人领导的研究团队在《Nature Neuroscience》上发表的研究,为这个谜题提供了一个颠覆性的答案。他们提出,纹状体局部的乙酰胆碱,通过其释放的精确时序,扮演了关键的“门控”角色,动态决定了多巴胺是执行“教学”(促进学习)还是“驱动”(增强运动)的功能。为了验证这一假设,研究人员训练大鼠执行一项名为“时间博弈”的决策任务。这个任务巧妙地设计了与奖励预期相关的事件(如不同大小的奖励提示)和与运动相关的事件(如转向特定端口的定向运动),从而在时间上分离了可能代表RPE和运动编码的多巴胺信号。
研究人员运用了多项前沿技术来捕捉大脑深处的化学对话。他们通过病毒载体将基因编码的荧光传感器(GRABDA和GRABACh)特异性地表达在大鼠的特定脑区(主要是背内侧纹状体,DMS),再利用光纤光度法实时、高分辨率地测量任务执行过程中多巴胺和乙酰胆碱的动态释放。此外,他们还使用了神经像素(Neuropixels)硅探针进行慢性植入,记录DMS中大量单个神经元的电活动,以探究多巴胺信号如何影响神经环路的可塑性。同时,利用深度学习姿态估计(DeepLabCut)精确量化大鼠的行为运动学(如头部转向速度和反应时)。
研究结果
DMS中的多巴胺和乙酰胆碱在奖励相关和运动相关事件中表现出不同的动态
- •
在奖励提示(如提供不同水量)出现时,DMS中的多巴胺释放呈现阶段性升高,其幅度与奖励大小成正比,符合RPE的特征。而在同一时间点,乙酰胆碱释放则出现明显的“下跌”(dip)。
- •
在引发对侧定向运动的时刻(如奖励端口指示灯亮起、动物选择退出后转向中心端口),DMS中的多巴胺释放在对侧运动时更强。令人惊讶的是,此时乙酰胆碱释放呈现与多巴胺同步的“爆发”(burst),而非下跌。
- •
这些结果表明,乙酰胆碱的释放模式(下跌vs.爆发)与多巴胺信号的功能类型(RPE vs. 运动)紧密耦合。
当多巴胺滞后于胆碱能下跌时,它预测学习
- •
在提供奖励提示的事件中,多巴胺的峰值释放大约滞后于乙酰胆碱下跌的谷值100毫秒。此时,多巴胺RPE的幅度能够预测动物在后续试次中行为的变化(如更快地启动新试次)。
- •
通过建立强化学习模型,研究人员发现提供提示时的多巴胺RPE与动物通过试错更新环境价值的学习过程一致。并且,DMS神经元的放电率在后续试次中的变化,与此RPE的大小相关,且这种变化具有持续性,表明发生了快速且特异性的突触可塑性。
当多巴胺先于胆碱能下跌时,它未能预测学习
- •
在奖励送达的提示事件中,多巴胺编码了奖励延迟的RPE(延迟越长,RPE越大),但其峰值释放先于乙酰胆碱下跌约50毫秒。
- •
与提供提示事件不同,此处的多巴胺RPE与动物后续的等待决策、端口探查概率等行为指标没有显著关联。这意味着,虽然多巴胺在此处编码了RPE,但由于其与乙酰胆碱下跌的相位关系不同,它并未有效地驱动可观察的学习行为。
多巴胺与胆碱能爆发同时出现时,预测运动活力
- •
在运动相关事件中,多巴胺的释放与乙酰胆碱的爆发基本同步。多巴胺的信号峰值先于动物头部运动速度的峰值约100毫秒。
- •
多巴胺信号的幅度与即将发生的对侧定向运动的“活力”(vigor)正相关:多巴胺释放越大,动物的运动反应速度越快。这表明此时的多巴胺信号起到了“驱动”或“增益”运动执行的作用。
研究结论与意义
这项研究确立了乙酰胆碱作为纹状体内“信号分拣器”的核心地位。其核心结论是:胆碱能信号的动态(下跌或爆发)及其与多巴胺释放的精确相对时序,决定了多巴胺信号是被“解读”为用于更新价值、驱动可塑性(强化学习),还是被用于增益即将发生的运动(运动控制)。具体而言,当多巴胺略微滞后于乙酰胆碱下跌时,它充当有效的RPE,促进学习;当多巴胺略微领先于乙酰胆碱下跌时,它虽编码RPE但不驱动可观察学习;当多巴胺与乙酰胆碱爆发同时发生时,它预测并可能调控运动的活力。
这一发现具有多重重要意义:
- 1.
解决了多巴胺功能的“异质性”难题:为同一脑区(DMS)中观察到的多功能多巴胺信号如何被下游神经元区分利用提供了直接的、在体的机制解释,超越了以往基于不同神经元群体的简单区分理论。
- 2.
提出了学习与运动调控的“门控”新模型:将乙酰胆碱从传统的“调节者”提升为关键的“仲裁者”或“门控”,其动态变化即时地切换了纹状体环路的工作模式(学习模式 vs. 执行模式)。
- 3.
连接了微观可塑性与宏观行为:研究首次在行为动物中,将特定时间点的多巴胺RPE、乙酰胆碱下跌与后续试次中DMS神经元放电率的持久改变(可塑性证据)直接关联起来,验证了强化学习理论的核心假设——RPE能快速诱导行为相关的突触效能变化。
- 4.
为基底神经节疾病提供新视角:许多神经精神疾病(如帕金森病、成瘾、强迫症)涉及多巴胺和乙酰胆碱系统的失衡。本研究揭示的二者精密时序互动机制,为理解这些疾病中学习与运动功能的共病障碍(例如帕金森病患者的运动迟缓和学习缺陷)提供了新的环路和分子层面的思考框架。未来,通过精确操控二者释放的相位关系,或许能发展出新的治疗策略。
总之,这项研究揭示了大脑通过两种古老神经调质的“时序二重奏”来灵活分配计算资源的精妙策略,是理解决策、学习和运动控制如何在大脑基底神经节环路中集成的一大步。