Nature带来人工智能的未来:大脑中的多巴胺如何指导人工智能快速适应变化

时间:2025年6月7日
来源:AAAS

编辑推荐:

如果你的大脑拥有一张内置地图——不是地点地图,而是可能的未来地图——会怎么样?尚帕利莫基金会 (CF) 的研究人员将神经科学与人工智能 (AI) 相结合,揭示大脑中的多巴胺神经元群不仅追踪奖励是否会到来,它们还会编码奖励何时到来以及奖励可能有多大的地图。这些地图会根据环境进行调整,或许有助于解释我们如何权衡风险,以及为什么有些人冲动行事,而另一些人则有所保留。引人注目的是,这种生物机制与人工智能的最新进展相呼应,并可能启发机器以新的方式像我们一样预测、评估和适应不确定的环境。

广告
   X   

如果你的大脑里有一张内置地图——不是位置地图,而是可能的未来地图——会怎么样?尚帕利莫基金会 (CF) 的研究人员将神经科学与人工智能 (AI) 相结合,揭示大脑中的多巴胺神经元群不仅能追踪奖励是否会到来,还能编码出奖励可能到来的时间和大小。

这些地图会根据具体情况进行调整,或许有助于解释我们如何权衡风险,以及为什么有些人冲动行事,而有些人则有所保留。引人注目的是,这种生物机制与人工智能的最新进展相呼应,或许能启发机器以新的方式,更像我们一样预测、评估和适应不确定的环境。

平均值的问题

想象一下,你正在考虑是在一家人满为患的餐厅排队等候你最喜欢的食物,还是在最近的咖啡馆吃点快餐。你的大脑不仅会考虑这顿饭有多好吃,还会考虑要花多长时间才能吃到。

几十年来,科学家们一直在研究大脑如何做出此类决策,他们构建了基于“强化学习”(RL)的计算模型。强化学习是一种框架,其中智能体通过反复试验,在奖励和惩罚的引导下进行学习。多巴胺系统是这一过程的核心参与者,它是一个神经元网络,当事情结果好于或差于预期时,它会释放化学物质多巴胺来发出信号。然而,传统的强化学习模型简化了这一过程:它们并没有代表所有可能的延迟结果,而是将未来的奖励压缩成一个单一的预期值——一个平均值。

这些模型总体上会告诉你预期会发生什么,但不会告诉你何时发生或发生多少。这就像在不知道等待时间或份量的情况下判断一顿饭的价值一样。

在《自然》杂志上连续发表的一项研究中,哈佛大学和日内瓦大学的研究人员进行了补充研究,这是合作和协调努力的结果,来自 Champalimaud 基金会学习和自然智能实验室的科学家们对这种观点提出了质疑。

他们的研究揭示,大脑并不依赖于对未来奖励的单一预测。相反,多样化的多巴胺神经元群体编码了一幅跨越时间和幅度的可能结果图谱——一幅丰富的概率图谱,可以指导不断变化的世界中的适应性行为。这一新的生物学见解与人工智能领域的最新进展相契合——尤其是那些帮助机器学习奖励分布而非平均值的算法,这对自主决策具有深远的影响。

“这个故事大约始于六年前,”该研究的第一作者、博士生Margarida Sousa)说道。“我看了谷歌 DeepMind 的Matthew Botvinick的一次演讲,这彻底改变了我对强化学习的看法。他是将分布式强化学习的概念引入神经科学的团队成员之一。在分布式强化学习中,系统不仅仅学习对未来奖励的单一估计,还能捕捉一系列可能的结果及其可能性。”

正如学习实验室的资深作者兼首席研究员Joe Paton所说,“这些结果非常令人兴奋,因为它们提出了一种大脑可以确定风险的相对简单的机制,这种机制对正常和病理行为都有各种影响——而且这种机制也被证明可以极大地提高人工智能算法在复杂任务上的性能”。

“然而,我们开始怀疑,多巴胺神经元报告的预测误差是否比 DeepMind 和哈佛团队描述的还要丰富得多,”Sousa 说道。“如果不同的多巴胺神经元对未来可能的奖励特征的不同组合敏感——例如,不仅包括其幅度,还包括其时间——那会怎样?如果是这样,那么整个神经元群体就能提供更丰富的图景——展现可能的奖励幅度及其时间的完整分布。”

该团队开发了一种新的计算理论,用于描述如何从经验中学习和计算此类信息。这种方法与当今一些人工智能系统(尤其是在强化学习领域)使用分布式学习策略进行训练以应对不确定性和风险的方式相呼应。

嗅探、等待、奖励

为了验证这一想法,研究团队设计了一项简单却富有启发性的行为任务。研究人员向小鼠展示气味线索,每种气味线索预测特定大小或不同延迟的奖励。至关重要的是,这种设置让研究人员能够观察多巴胺神经元对不同奖励强度和时间组合的反应。

“以前的研究通常只是取神经元活动的平均值,然后观察这个平均值,但我们想要捕捉整个人群的全部多样性——看看单个神经元是如何专业化的,并为更广泛的集体代表做出贡献的。”

他们结合了基因标记和先进的解码技术,分析了几十个多巴胺神经元的记录。他们的发现令人震惊:一些神经元更“不耐烦”,更看重眼前的奖励,而另一些神经元对延迟的奖励更敏感。另外,一些神经元更“乐观”,对出乎意料的大奖励反应更强烈,并期望比平均水平更好的结果。其他人则更“悲观”,对失望的反应更强烈,对未来回报的估计也更谨慎。

Paton说:“当我们把这个群体作为一个整体来看时,很明显,这些神经元正在编码一个概率图。”“不仅仅是奖励是否可能,还有一个坐标系统,即奖励何时可能出现,奖励可能有多大。”实际上,大脑在计算奖励分配,这是现代人工智能系统的核心原则。

你头脑中的顾问

研究小组表明,这种种群密码可以预测动物的预期行为。他们还发现,神经元的调整适应环境。“例如,”自然智能实验室的资深合著者和首席研究员Daniel McNamee说,“如果奖励通常被推迟,神经元就会进行调整——改变它们对奖励的价值,变得更加敏感。这种灵活性就是我们所说的‘高效编码’。”

该研究还发现,虽然所有神经元都可以改变它们的调谐,但它们的相对作用保持稳定。更乐观的神经元保持乐观;悲观主义者则保持谨慎。McNamee认为,这种保留的多样性可能是让大脑同时代表多种可能的未来的关键。

他解释说:“这就像拥有一个由不同风险状况的顾问组成的团队。有些人敦促采取行动——‘现在就接受奖励,它可能不会持续太久’——而另一些人则建议耐心——‘等等,更好的东西可能会到来’。”这种观点的传播可能是在一个不可预测的世界里做出正确决策的关键。”这与机器学习中集成的使用相似——机器学习是人工智能的一个分支,计算机从数据中学习——其中多个模型,每个模型都有不同的视角或偏见,作为不同的预测器一起工作,以提高不确定性下的性能。

从反馈到预见

至关重要的是,这种从经验中习得的神经密码不仅能帮助动物根据过去的情况做出行为。相反,它使他们能够规划一个不同的未来。在计算机模拟中,研究人员表明,进入这张多巴胺编码的地图可以让人工智能做出更明智的决定——尤其是在奖励随时间变化或取决于饥饿等内部需求的环境中。

McNamee说:“这个模型的一个优点是,它支持对风险敏感行为的快速适应,而不需要一个复杂的世界模型。”“与其模拟每一个可能的结果,大脑可以参考这张地图,并根据上下文重新权衡它。”

Sousa补充说:“这可能解释了动物在需求变化时如何迅速改变策略。饥饿的小鼠喜欢快速的小奖励。一个心满意足的人可能愿意等待更好的东西。相同的底层地图可以支持这两种策略,只是权重不同。”

为什么你要吃饼干(或不吃)?

“这是第一次,我们看到这种多维多巴胺活动在提示的时候——甚至在奖励到来之前,这种早期活动使大脑能够构建未来奖励的预测图。它反映了多巴胺神经元反应的结构和异质性,这是以前没有被认识到的。这种神经代码不仅可以从过去的奖励中学习,还可以对未来进行推断——根据接下来可能发生的事情主动调整行为。”

这些发现也为思考冲动的新方法打开了大门。如果个体的多巴胺系统表现未来的方式不同,这是否有助于解释为什么有些人更有可能现在就抓住饼干,而另一些人则等待——为什么有些人更容易冲动?如果是这样的话,这种内在的“地图”是否可以通过治疗或环境改变来重塑,以鼓励个人以不同的方式看待他们的世界,并对长期回报给予更大的信任?

自然智能,人工未来

在神经科学和人工智能日益相互学习的时代,这项研究的发现提供了一个令人信服的联系。他们认为,大脑可能已经在使用计算机科学家最近才开发出来的一种策略来提高学习效率

目前,这项研究标志着我们在理解大脑如何预测未来方面迈出了重要一步——它并非以固定的预测方式,而是一张包含各种可能性的灵活地图。这是一种根植于灵活性、多样性和情境的预见模型,一种神经密码,可以作为大脑最有价值的蓝图之一——它不仅能引导我们从过去中学习,还能帮助我们应对未来的不确定性。

下次您权衡是否加入队列时,请考虑一下。

Dopamine neurons encode a multidimensional probabilistic map of future reward


生物通微信公众号
微信
新浪微博


生物通 版权所有