多巴胺编码深度神经网络教学信号塑造个体学习轨迹的神经机制

时间:2025年6月12日
来源:Cell

编辑推荐:

牛津大学团队通过长期追踪小鼠视觉决策任务学习过程,发现背侧纹状体多巴胺(DLS DA)作为异质性教学信号,驱动个体形成多样化但系统性的学习轨迹。研究结合光纤光度法、光遗传学操控和深度强化学习模型,首次揭示DLS DA通过更新特定刺激-选择关联而非经典奖励预测误差(RPE)来指导学习,为理解长期学习的生物学和数学原理提供了新框架。

广告
   X   

在漫长的学习过程中,为什么不同个体总会发展出独特的技能掌握路径?就像网球初学者可能形成截然不同的击球风格,这种个体差异背后的神经机制始终是未解之谜。传统神经科学研究多聚焦专家阶段的微调学习,对从新手到专家的长期学习过程知之甚少。更关键的是,指导这种系统性学习轨迹的神经信号究竟是什么?英国牛津大学的研究团队在《Cell》发表的最新研究,通过创新性地结合行为追踪、神经信号记录和计算建模,揭示了背侧纹状体多巴胺(DLS DA)作为深度神经网络教学信号的关键作用。

研究人员采用光纤光度法长期记录30只小鼠学习视觉决策任务时的DLS DA信号,配合光遗传学操控和深度强化学习建模。通过设计包含全难度谱系的恒定任务范式,避免了传统渐进式训练对学习轨迹的人为干预。关键技术创新包括:纵向光纤记录GRAB-DA2m信号、随机间隔的eOPN3抑制性光遗传学操控、以及针对错误选择的ChrimsonR特异性刺激实验。

研究首先发现小鼠形成三类学习轨迹:右关联型(主要利用右侧刺激)、平衡型和左关联型。早期选择偏好在训练第4-8天就能预测数周后的策略特征(图1G),这种"早期决定晚期"的模式暗示学习存在系统性层级。DLS DA信号完美映射了这种多样性:在右关联型小鼠中,仅右侧刺激诱发DA反应;而平衡型小鼠对双侧刺激均产生反应(图2C)。值得注意的是,DA信号反映的是刺激关联性而非选择准确性——即使对准确率相同的关联与非关联刺激,DA反应仍存在显著差异(图2F)。

光遗传学实验证实DLS DA具有独特教学功能。持续抑制DLS DA使小鼠无法形成任何刺激-选择关联(图4C),而特异性刺激错误选择的关联刺激侧,会选择性降低该侧准确率(图4G)。这与额外奖励(模拟经典RPE)产生全域性行为改变形成鲜明对比,证明DLS DA通过更新特定刺激表征而非全局价值进行教学。

研究团队提出"导师-执行者"深度强化学习模型(图5A),其中W1层(模拟皮层)通过总RPE(δtot
)学习,而W2层(模拟纹状体)的刺激通路通过部分RPE(δstim
)更新。该模型不仅重现了小鼠行为轨迹的多样性(图5G),其衍生的DA信号(Qstim
和δstim
)也与实证数据高度吻合(图5P)。动力学分析揭示,学习轨迹的层级性源于深度网络特有的鞍点结构(图7A):从初始偏见到专家状态的过渡需依次经过多个鞍点,每个鞍点对应特定的行为策略和DA特征。

这项研究首次阐明:1)DLS DA作为异质性教学信号,通过更新特定刺激-选择关联指导学习;2)深度而非浅层网络才能解释学习轨迹的多样性;3)鞍点动力学是系统性学习阶段的数学本质。这些发现不仅为个体化学习差异提供神经解释,对理解习惯形成、技能学习等长期过程具有广泛意义。未来研究可探索不同任务难度对轨迹形成的影响,以及DMS DA在空间选择性学习中的作用。

该研究的创新性体现在:采用全周期纵向追踪设计,避免传统专家阶段研究的局限性;建立首个将神经信号、行为输出和计算原理统一的理论框架;开发的新型"导师-执行者"模型为人工智能的生物学合理性提供借鉴。正如资深作者Armin Lak指出:"多巴胺信号的异质性是实现高效学习的关键,这就像拥有专业导师团队比单一教师更能培养多样化人才。"这些发现为发展针对学习障碍的精准干预策略奠定基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有