450 毫秒神经放电预测“人性”

时间:2025年6月6日
来源:Nature

编辑推荐:

来自国际团队的研究人员通过研究小鼠多巴胺能神经元,揭示了其在多时间尺度强化学习(RL)中的动态编码机制。研究发现不同神经元通过差异化的时间折扣因子(temporal discount factors)分别编码短期和长期奖励预测误差(RPE),首次证实了细胞特异性时间计算特性,为理解决策行为中的非指数折扣现象提供了神经基础,并为优化人工强化学习算法开辟了新路径。

广告
   X   

在复杂环境中生存的奥秘,或许就藏在大脑那簇神秘的多巴胺能神经元(dopaminergic neurons)里。最新研究发现,这些位于中脑的"奖励信使"竟能像精密的并行计算机,通过多时间尺度强化学习(multi-timescale RL)系统来解码未来奖励。

当小鼠执行行为任务时,科学家捕捉到令人惊叹的神经编码多样性——有的神经元像急性子的短线交易员,用高折扣因子(discount factor)快速响应即时奖励;有的则像深谋远虑的战略家,用低折扣因子规划长期收益。这种细胞特异性(cell-specific)的时间计算特性,完美解释了为何短暂线索诱发的瞬时反应(transient responses)与缓慢波动的多巴胺斜坡(dopamine ramps)能和谐共存。

更妙的是,这些神经元的"性格特征"在不同任务中保持稳定,就像每颗细胞都带着独特的生物钟。这一发现不仅破解了人类和动物为何常采用非指数折扣(non-exponential discounting)的古老谜题,更为设计新一代多时间尺度强化学习算法提供了仿生蓝图——毕竟,大自然用了亿万年优化的神经算法,或许正是突破当前人工智能瓶颈的钥匙。

生物通微信公众号
微信
新浪微博


生物通 版权所有