编辑推荐:
为探究自然行为学习机制,研究人员监测雏鸟鸣曲学习及多巴胺活动,发现其通过多巴胺介导强化学习。
许多自然运动技能,如说话或移动,是在发育过程中通过试错学习获得的。长期以来,基于人工学习实验的观察,人们推测多巴胺在这一过程中起着关键作用。
基底神经节中的多巴胺被认为通过编码奖励预测误差来指导基于奖励的试错学习,在奖励结果比预期差时多巴胺水平下降,比预期好时则上升。此前在成年斑胸草雀中的研究表明,与唱歌相关的基底神经节 X 区中的多巴胺编码了表现预测误差:在表现比预期差(音节失真)时多巴胺受到抑制,比预期好(音节不失真)时被激活。
然而,自然行为(如发育过程中的发声学习)是否通过基于多巴胺的强化学习发生仍不清楚。
在本研究中,研究人员追踪了幼年斑胸草雀的鸣曲学习轨迹,并使用纤维光度法监测 X 区中同时发生的多巴胺活动。研究发现,与近期的音节再现相比,那些更接近最终成年鸣曲版本的音节再现后,多巴胺被激活,而在距离成年版本更远的再现后,多巴胺受到抑制。
此外,多巴胺与鸣曲波动之间的关系表明,多巴胺能够预测鸣曲未来的演变,这意味着多巴胺驱动着行为。最后,多巴胺活动可以由当前再现的质量与近期再现历史之间的对比来解释,这与多巴胺在行动者 - 评论家强化学习模型中编码预测误差的假设作用一致。强化学习算法已成为解释基于奖励的实验室任务学习,以及驱动人工智能自主学习的一类强大模型。
研究结果表明,生物系统中的复杂自然行为也可以通过多巴胺介导的强化学习获得。
生物通 版权所有