婴儿与移动设备：培养因果关系的理解能力

时间：2026年5月16日

来源：Developmental Science

编辑推荐：

**摘要** 在移动结合强化范式中，婴儿的腿部通过一根绳子与一个可移动的物体相连，婴儿可以通过移动腿部来驱动这个物体的移动。在几分钟的时间内，婴儿会表现出腿部移动频率的增加。这种行为有时被解释为婴儿体验到因果控制的有效性的迹象。然而，一些研究者认为并不一定需要一个潜在的因果模型

**摘要**

在移动结合强化范式中，婴儿的腿部通过一根绳子与一个可移动的物体相连，婴儿可以通过移动腿部来驱动这个物体的移动。在几分钟的时间内，婴儿会表现出腿部移动频率的增加。这种行为有时被解释为婴儿体验到因果控制的有效性的迹象。然而，一些研究者认为并不一定需要一个潜在的因果模型，一个简单的强化模型就可以解释这种行为模式。有趣的是，在物体与腿部断开连接后，一些婴儿会短暂地表现出更高的移动频率，这种现象被称为“消退爆发”，这很难仅用简单的强化学习模型来解释。在这项研究中，我们提出了不同的计算模型，并研究它们在多大程度上能够捕捉婴儿的行为。特别是，我们构建了一个主动学习的因果模型，该模型能够在不预先指定原因或结果的情况下，即时发现潜在的因果关系。我们还提出了一种基于预期违反的主动学习机制，它可以与所提出的因果模型以及其他多种模型（包括一个简单的强化模型）结合，从而产生消退爆发现象。总体而言，我们的工作揭示了可能促使婴儿发展出因果关系理解的学习机制。

**引言**

婴儿的能动性意识——即认识到他们的行为可以影响外部事件——的发展已经通过研究婴儿在面对条件效应时增加行动频率的现象得到了广泛探讨。基于操作性条件反射范式的研究（如Rovee–Collier的移动结合强化实验（Rovee和Rovee 1969）表明，早在2-3个月大的婴儿，当他们的腿部动作能够可靠地引起头顶移动物体的移动时，就会增加踢腿的频率，这突显了他们对行动-结果关联的早期敏感性。同样，Watson（1972）观察到，当婴儿与听觉或视觉反馈配对时，他们的肢体动作会增强，这表明即使是新生儿也会参与“条件学习”，其中可预测的强化会加强行为的重复。方法论的进步，包括神经生理学测量，进一步阐明了婴儿的大脑活动如何与能动性体验相关联，特别是当像发声或手势这样的动作引发照顾者的反应时（Hauf和Prinz 2004）。这些发现强调了互惠社会互动在精炼能动性中的作用，因为婴儿会放大那些能引发可靠外部反馈的动作（Bakeman等人1996）。然而，发展轨迹的变异性突显了内在因素（例如注意力容量）和环境反应性的相互作用。总体而言，这些研究表明，在条件效应存在的情况下，行动频率的增强是婴儿精炼因果关系和意志理解的基础机制。

**1 引言**

婴儿的能动性意识的发展——即认识到他们的行为可以影响外部事件——已经通过研究婴儿在面对条件效应时增加行动频率的现象得到了广泛探讨。基于操作性条件反射范式的研究（如Rovee–Collier的移动结合强化实验（Rovee和Rovee 1969）表明，早在2-3个月大的婴儿，当他们的腿部动作能够可靠地引起头顶移动物体的移动时，就会增加踢腿的频率，这突显了他们对行动-结果关联的早期敏感性。同样，Watson（1972）观察到，当婴儿与听觉或视觉反馈配对时，他们的肢体动作会增强，这表明即使是新生儿也会参与“条件学习”，其中可预测的强化会加强行为的重复。方法论的进步，包括神经生理学测量，进一步阐明了婴儿的大脑活动如何与能动性体验相关联，特别是当像发声或手势这样的动作引发照顾者的反应时（Hauf和Prinz 2004）。这些发现强调了互惠社会互动在精炼能动性中的作用，因为婴儿会放大那些能引发可靠外部反馈的动作（Bakeman等人1996）。然而，发展轨迹的变异性突显了内在因素（例如注意力容量）和环境反应性的相互作用。总体而言，这些研究表明，在条件效应存在的情况下，行动频率的增强是婴儿精炼因果关系和意志理解的基础机制。

**1.1 直接强化和因果模型：在开放式学习中自主发现的必要性**

关于是否需要明确的因果模型来解释移动范式中的学习，争论的核心在于两个计算问题之间的根本区别：策略优化与因果发现。简单强化模型的支持者认为，婴儿的行为可以解释为一个优化过程。这种观点得到了“babybot”模拟（Zaadnoordijk等人2018）的支持，在这些模拟中，移动物体的移动被视为固定奖励函数内的预定义奖励信号。模型的任务是简单地最大化奖励：它学习一个策略来增加产生这种奖励的动作频率，而无需统计上形成对潜在因果机制的明确表示。这种方法的关键局限性在于它依赖于预先指定的奖励函数，这实际上硬编码了它声称要解释的因果联系。这种表述未能解决婴儿面临的真正生态学挑战：在开放式环境中如何分配功劳。婴儿没有奖励的先验知识；他们必须首先自主发现他们的许多潜在动作中哪些能够引起特定的环境效应。关联学习的支持者认为，预先设定的机制就足够了，这一观点得到了“babybot”模拟的支持（Zaadnoordijk等人2018），在这些模拟中，像踢腿这样的行为仅仅因为被预定义的奖励（例如移动物体的移动）所强化而增加。然而，这种方法在开放式环境中并不具有生态学可行性，在这些环境中，婴儿必须首先自主发现他们的哪些潜在动作可能会在众多虚假的统计相关性中产生效果。这些模型绕过了从大量可能性中识别真正因果关系的基本认知挑战，因为它们从已经定义为奖励路径的因果联系开始。这突显了一个关键缺口：需要一个能够即时捕捉因果发现过程的机制，反映婴儿在没有先验知识的情况下对环境的主动假设检验探索。此外，消退爆发现象——当预期效果突然消失时行动频率的暂时性急剧增加——对基于强化机制的操作性条件反射模型提出了重大挑战。在移动范式中，获得阶段之后，婴儿在物体断开连接后往往会以更高的频率踢腿。这种行为很难用简单的强化机制来解释，在这种机制中，奖励的移除应该导致行动概率的单调衰减。虽然“babybot”模拟可以复制肢体特定动作的一般增加，但它们无法为这种短暂激增提供一个令人信服的机制，这种激增通常被解释为婴儿试图重新控制被中断的因果关系。这种差异表明，消退爆发不仅仅是强化历史的简单产物，可能反映了更复杂的认知过程（Bednarski等人2022），这表明需要一个更高级的机制来解释这种独特的行为特征。为了应对这两个挑战，本研究提出了一个因果驱动的模型，该模型能够即时自主发现因果关系，从而摆脱了对预先设定奖励函数的需求。该模型通过量化行动-条件结果和基线结果之间的分布差异来形式化因果推断，使其能够在复杂场景中稳健地学习，而在这些场景中其他模型会失败。具体来说，它成功地在一个“反向案例”中推断出因果关系，即一个动作抑制了结果，以及在一个“双峰案例”中，即一个动作增加了结果的熵——在这些情况下，强化模型和基于可控性的模型无法捕捉到因果关系。此外，该模型引入了一个新的“惊喜”术语，计算上实现了预期违反。这种机制受到神经认知发现（Zaadnoordijk等人2020）的启发，将消退爆发解释为一个可量化的预测错误，该错误触发了探索性行为的补偿性增加，从而在单一的、连贯的框架内统一了因果学习和假设检验。

**1.2 期望违反和概率密度估计：通过分布惊喜来建模消退爆发**

消退爆发现象可以通过期望违反的概念来建模，这一概念得到了一个EEG研究（Zaadnoordijk等人2020）的支持，该研究关注婴儿新兴的能动性意识。在这项研究中，3至4.5个月大的婴儿学会了特定的肢体动作会触发视听效果。当这种已建立的关联突然中断时，表现出期望违反神经特征的婴儿——他们的EEG中出现了一种称为不匹配负性（MMN）的成分——也显示出了特定肢体的消退爆发。MMN是一种已知的标记，用于检测与学习模式不符的意外偏差（Garrido等人2009），它在动作开始后约200-350毫秒出现，表明婴儿的大脑已经记录了预期结果的违反。重要的是，只有那些也表现出MMN反应的婴儿亚组才表现出明显的行为消退爆发。这表明，爆发源于预测结果和实际结果之间的不匹配，而不仅仅是预先设定的关联强化。这种神经活动与行为之间的联系支持了这样的假设：消退爆发是婴儿试图恢复或重新评估预期因果关系的主动尝试，这是由婴儿发展的因果模型驱动的。为了在计算模型中捕捉这种动态，因果发现机制通过期望违反机制得到了扩展，其中低概率结果表明高预测错误。在消退阶段，预期结果的缺失（例如移动物体的运动）导致观察到的结果概率密度与模型预测的概率分布相比急剧下降。这种下降量化了期望违反。这种基于密度的度量类似于MMN信号，它在模型内部触发了一个补偿机制：它增强了历史上与现在缺失的效果相关的动作，从而模拟了特定肢体的消退爆发。这种方法有效地将因果推理与统计期望违反检测联系起来。它表明，消退爆发可以自然地出现，因为代理试图通过强化探索性行为来解决低概率事件，这与发展理论一致，即能动性是因果发现和环境参与之间的相互作用（Blanco和Sloutsky 2024）。

**2 推断因果关系和检测惊喜**

因果关系的概念在行为科学中有着不同的解释和操作化（Sobel 1995）。在这项工作中，我们采用了Judea Pearl的因果推断形式框架（Pearl 2009），通过do-operator来分析行动-结果关系，采用基于干预的定义。考虑一个二元行动，当（随机）变量之间没有混杂因素时。一个变量在另一个变量上受到干预后的估计量可以表示为：

（1）当行动和结果之间存在因果联系时；或者：

（2）当两个变量独立时。这两个结果分布之间的差异量化了因果效应，衡量了一个行动系统地影响特定结果概率的程度。在这里，我们使用Wasserstein-2距离作为分布距离度量来提出CAIS。

在学习过程中，代理改进了每个可能行动的CAIS估计，并用它来指导下一个行动。精确的动作选择程序将在第3节中进一步详细讨论。为了计算CAIS，我们采用分位数回归（Petersen和Müller 2019）来估计距离：

（4）该公式计算了概率分布之间的距离（Wasserstein-2距离，Vaserstein 1969），使用相应的分位数函数作为分位数的函数。我们采用了49个分位数（2%–98%）的网格。虽然更密集的网格可以提供更精细的分辨率，但对于我们的建模目标来说，2%的增量已经足够。关于不同分位数数量的影响，请参见附录A。为了学习分位数函数，我们采用了Dabney等人（2018）提出的修改后的分位数Huber损失：

（5）

（6）其中是每个分位数的分位数误差及其分位数值与目标值之间的差异，在移动范式中，目标值指的是移动的结果。在整篇文章中，为了简化，我们采用。将Wasserstein距离与分位数回归相结合，相比传统的基于Kullback–Leibler（KL）散度的互信息方法，具有明显的优势。首先，与缺乏度量属性的KL散度不同，Wasserstein距离满足对称性和三角不等式，使得分布的几何比较成为可能。其次，分位数回归避免了显式概率密度估计的计算负担，后者在训练过程中通常需要嵌套算法，而是直接对结果分布的分位数进行建模。第三，这种方法与神经生物学见解一致：分位数回归对奖励分布尾部的关注反映了人类大脑中的多巴胺驱动的奖励预期机制（Dabney等人2020）。然而，重要的是要在适当的分析层面上解释这些优势。使用这种特定的数学形式是一种方便的计算建模选择，这是由于其描述能力和在模拟假设的心理过程中的效率。我们并不声称婴儿大脑以这种方式执行分位数回归或计算最优传输（Vaserstein 1969）。相反，该模型假设婴儿的学习系统对分布变化敏感（Dabney等人2020）。Wasserstein-分位数方法提供了一种稳健且原则性的方式来形式化和实现这一抽象假设。为了模拟由EEG数据中观察到的MMN形式的预期违反引起的灭绝爆发效应，我们定义了一个惊讶度量。为此，我们将结果分布的分位数区间视为概率密度的倒数，其中低密度区域（稀疏的概率质量）对应于较宽的分位数区间，反映了更大的惊讶：

（7）其中是代理在当前时间步中执行的动作。指的是结果落到的分位数区间。注意，较宽的分位数区间本质上反映了较低的概率密度，因此反映了更大的惊讶，从而可以直接转换为惊讶度量，而无需数学反转或否定。在观察到所选动作的结果后，计算惊讶度，然后将其与因果项线性结合，以指导下一步的动作选择：

（8）其中是一个超参数，用于平衡CAIS项和惊讶项的相对重要性。较大的值将增加模拟中的灭绝爆发强度。我们注意到可以用来模拟儿童之间的个体差异。

3 模拟设置和结果

基本移动范式的模拟包括三个连续阶段——基线、连接和断开。时间被离散化为0.5秒的步骤。整个模拟需要2000个时间步。最初，基线阶段运行200个时间步（100秒），以建立干预前的行为频率。接下来是连接阶段（1000个时间步，500秒），在此期间，一个肢体（从四个中随机选择）与移动动作有条件地关联，最后是断开阶段（800个时间步，400秒），在此期间所有肢体-移动的关联都被终止。关键的是，肢体运动与移动激活之间的因果关系仅在连接阶段实现，而基线和断开阶段作为干预前后的对照。在我们的移动范式计算模型中，通过离散的动作变量来模拟婴儿的独立肢体控制，每个变量对应一个肢体，并限制为二元状态（0：静止，1：移动）。移动的动作被建模为一个随机结果变量。在基线和断开阶段，从基线高斯分布中采样，允许移动进行小的随机运动，以反映环境的随机性。然而，在连接阶段，取决于所选肢体的动作：如果代理激活了有因果关联的肢体，则从预定义的正态分布中采样，模拟移动的动作；如果肢体不活跃，则返回到嘈杂的基线。这种设计将因果学习隔离在连接阶段，同时通过阶段特定的结果动态保持生态有效性。为了计算CAIS，我们通过将移动结果建模为依赖于每个肢体的二元动作状态（0：静止，1：移动）的条件分布来独立评估每个肢体的因果影响。只有当执行动作时，才会更新每个肢体的条件分布，确保在每个时间步，每个肢体只有一个条件分布被修订。同时，无论动作如何，无条件结果分布作为边际分布在每个时间步更新，以反映整体环境结果动态。在所有移动范式模拟中，我们通过分位数回归估计这九个分布（八个条件分布和一个边际分布），绕过了参数密度假设，直接建模结果百分位数来计算因果和惊讶度量。分位数值（涵盖49个分位数，从2%到98%）被建模为可学习参数，无需任何网络，通过反向传播（Adam优化器；Kingma和Ba 2015）进行优化，损失在方程（5）中定义，并采用1周期余弦退火学习计划（Loshchilov和Hutter 2017），在模拟过程中将学习率从0.03平滑衰减到0。这种退火策略具有双重目的：其平滑的衰减曲线为婴儿随时间减少的探索性参与提供了计算类比，而后期阶段较低的学习率确保了模型稳定性，允许在灭绝阶段逐渐且合理地衰减学习行为。有关学习率曲线和没有余弦退火策略的结果，请参见附录A。在每个时间步，更新模型并计算每个肢体的每个动作状态的CAIS后，我们通过平均每个肢体的两个动作状态的CAIS值来得出特定于肢体的因果参与得分。为了防止持续的动作激活并保持探索行为，我们为每个肢体引入了一个基线因果惯性项，计算为所有状态-动作对的平均CAIS。这种惯性代表了不行动的默认因果“成本”，确保代理在没有证据表明有条件结果的情况下不会过度投入运动。对于动作选择，每个肢体的因果参与得分使用Sigmoid函数相对于其基线惯性进行归一化，以得出相应的运动概率：

这种归一化确保了具有较高因果影响得分的肢体（相对于肢体的基线因果惯性）被优先激活，动态地将运动频率与推断的因果效果对齐，同时通过随机动作选择保持探索行为。图1显示了示例模拟中每个肢体的因果参与得分结果。面板A展示了没有惊讶机制的模型行为。我们观察到，在连接阶段，有因果关联的肢体的运动概率显著增加，反映了模型对学习到的动作-结果关联的适应。未连接的肢体在此阶段表现出适度的、短暂的增加——这是由随机环境反馈引起的虚假相关性的副产品，模型最初将其归因于因果效果。在断开阶段之后，之前连接的肢体的运动概率急剧下降，而未连接的肢体由于归一化机制（方程9）在所有肢体之间重新分配行为优先级而短暂恢复活跃。这种模式反映了探索性假设测试行为，其中代理暂时将注意力转移到其他肢体以探索新的因果关系。随着时间的推移，运动概率收敛到一个稳定的低基线，由余弦退火调度器逐渐衰减的探索率稳定——这是婴儿在探索性“疲劳”中观察到的计算类比，其中长时间的环境脱离减少了寻求新奇性的动机。非零的收敛反映了动作选择中的持续随机性，确保了对潜在关联的持续敏感性。图1在图查看器中打开

移动范式模拟中的因果参与得分。面板A：没有惊讶的因果参与得分。面板B：带有惊讶的因果参与得分。面板C：每个肢体的惊讶程度。蓝线表示有条件连接的肢体的因果参与得分；其他线条代表无条件连接的肢体。虚线垂直线标记阶段转换（基线、连接、断开）。阴影区域表示5次模拟运行的1个标准差。为了模拟灭绝爆发，我们首先使用方程7计算每个肢体在时间步的动作特定惊讶度，该方程量化了预测结果和观察结果之间的不匹配。然后通过用原始得分和惊讶项的线性加权组合动态调整每个肢体的因果参与得分，如方程8所定义。这种调整传播到非运动活动率，该活动率被重新计算以反映所有肢体的更新后的因果参与得分。通过方程9得出后续时间步的动作选择概率，结合这些修改后的得分。为了稳定固有的随机惊讶信号，每个肢体的调整后因果参与得分进一步使用指数移动平均进行平滑，近似代理对持续预期违反的逐步细化因果假设：

这种惊讶和因果推断的双重整合捕捉到了灭绝爆发作为短暂的行为重新校准，其中突然的环境不连续性暂时放大了特定肢体的探索行为，以解决因果不确定性。在图1的面板B中，一个短暂的灭绝爆发表现为在断开阶段开始时之前连接的肢体的运动概率激增，与A中的立即逐渐下降形成对比。这种激增反映了预测错误——即代理学习到的因果模型的可量化违反，其中肢体的运动不再引发预期的移动。这种预期（因果推断）和观察结果之间的偏差触发了补偿性行为反应：婴儿模型加强了与现在被破坏的关联相关的动作，试图恢复被违反的因果假设。这与神经发育学对灭绝爆发的解释一致，即在不确定性下主动进行假设测试，其中代理暂时增强探索行为以解决环境不一致性。这一过程由面板C中显示的潜在惊讶度量驱动。这里，所有肢体的惊讶度最初都很高，反映了模型的不确定性。在连接阶段，随着模型学习环境的动态，惊讶度减少，对于其结果变得高度可预测的附着肢体，衰减速度明显加快。在断开阶段开始时，预期的移动动作的缺失造成了巨大的预测错误，导致惊讶度急剧增加，对于因果模型被最直接违反的之前连接的肢体来说更为明显。为了验证我们的模型与婴儿行为的一致性，我们系统地改变了惊讶权重参数——该参数平衡了因果推断与新奇性驱动的探索——并调整了响应幅度，以与婴儿研究中观察到的运动频率对齐。我们还略微调整了每个时间步的持续时间（100个时间步对应1分钟，而不是50秒）。如图2所示，通过网格搜索优化的模拟得出的因果参与得分与实验测量的灭绝爆发期间的特定肢体运动率非常吻合（Rovee-Collier等人1978）。这种对齐表明，我们的框架捕捉到了在去除关联后肢体激活的非线性放大，这是婴儿灭绝爆发的特征。通过将参数选择基于实证数据，我们将计算理论与发展现象学联系起来，使我们的模型成为研究早期因果认知的复制和预测工具。图2在图查看器中打开

3.1 一个反向案例

为了将我们的因果模型与预先连接的关联学习框架进行基准测试，我们实现了一个简单的直接强化代理，复制了“babybot”模拟。该代理基于直接操作性条件反射的原理运作，调节肢体运动的概率，而无需形成对其环境的明确因果表征。该模型本质上是表格化的，直接维护和更新每个肢体的运动概率。这些概率最初被设置为0.2的均匀值。代理的学习是由其动作与环境反馈的时间共现驱动的。具体来说，当肢体运动之后伴随着显著的移动反应（模拟为从高斯分布中抽取的值超过2.5的阈值）时，该肢体的运动概率会增加1%。相反，如果肢体运动之后没有伴随显著的移动反应，概率会减少0.5%，从而有效地惩罚不行动或无效的动作。该模型的架构被有意简化，以提供一个清晰且可证伪的关联学习假设的实例。该模型还被描述为“天真的”，因为其学习机制纯粹是相关性的。它旨在检测和利用动作与随后“奖励”之间的时间连续性，但它没有机制来区分这种相关性是真实因果关系的结果还是仅仅是统计上的巧合。移动体运动的硬编码阈值2.5作为一个预定义的二元奖励信号。该模型的整个操作逻辑是增加任何可靠地伴随着这个信号的动作的频率。通过这样做，它绕过了从大量可能性中识别真正因果关系的基本认知挑战（Gergely和Watson，2014年）。它并不是在发现因果关系；它只是在优化其行为以最大化期望结果的频率。关键的是，这种直接强化代理缺乏因果推理，而是依赖于动作-结果的相关性。为了进一步验证我们因果模型的稳健性，我们进行了一次反向模拟：移动体自行移动，但当连接的肢体处于活动状态时停止。这种反向测试模型是否能够推断出非直观的因果关系（例如，“我的动作停止了移动体”），而不是默认采用“运动导致运动”这样的启发式方法。

如图3的A面板所示，在标准移动范式中，直接强化模型成功复制了在连接阶段与因果相关的肢体运动概率的增加，其中移动体运动作为预先指定的奖励信号。然而，在反向模拟中（B面板），当肢体激活抑制移动体运动时，强化模型增加了未连接肢体的运动频率，同时抑制了连接肢体的运动频率。这种分歧的出现是因为直接强化框架将动作-奖励相关性严格等同于因果效力，缺乏反转学习关联的能力。相比之下，因果模型（C和D面板）通过识别运动抑制作为操作性因果机制，并在断开连接阶段抑制失败时触发消退爆发，动态地推断出潜在的因果结构。通过将因果发现与预先指定的奖励分离，该模型能够泛化到任意动作-效果关系，展示了其对环境变化的稳健性。直接强化模型与因果模型在反向情况下的定性不同预测使其成为未来研究中一个有趣的实验范式。

3.2 基于可控性的另一种模型

可控性模型被广泛用于检测动作的影响（Touchette和Lloyd 2004）。然而，它们系统性地倾向于仅在动作减少结果熵时（即，稳定可预测状态）推断影响。当动作增加环境不确定性时，这种框架会失效——例如，通过将移动体运动从确定性动态转变为随机动态——因为这些情况违反了可控性需要低熵结果的假设。相比之下，我们的因果模型基于分布差异的识别，无论熵如何变化，都能动态地推断出影响，即使动作增加了变异性，也能将其识别为因果关系，从而超越了以稳定性为中心的启发式方法。为了实证评估可控性模型的熵偏差，我们通过用可控性启发式替换方程3来构建了我们框架的一个基于可控性的变体：

其中是动作空间的支持，是结果的熵，这是通过差分分位数熵（Vasicek 1976）得出的：
其中是分位数函数的导数。为了挑战因果模型检测非显而易见动作-结果关系的能力，我们用一个由两个等权重组成部分组成的双峰高斯混合体替换了原始的单峰结果分布：和。与可控性模型不同，后者将因果影响与熵减少混为一谈，我们的框架成功地识别了肢体运动与双峰性出现之间的因果联系——尽管结果分布的熵增加了。这证明了该模型能够通过分布重构而不是寻求稳定性的启发式方法来推断因果关系，从而泛化到动作引发复杂多模态结果动态的场景。如图4所示，可控性模型在单峰范式中成功识别了因果影响（A面板），其中动作使结果围绕单一均值稳定。然而，在双峰情况下（B面板），它未能检测到因果关系，其中肢体运动将结果转变为高熵混合体，反映了其将可控性与熵减少等同的固有偏差。相比之下，我们的因果模型（C面板）在双峰设置中通过量化干预结果和观察结果之间的分布差异，稳健地推断出因果影响，不受熵约束的影响。这种差异突显了以稳定性为中心的框架在复杂动态环境中学习的局限性。

3.3 婴儿条件性发声的模拟

为了证明我们方法的普遍性，我们模拟了一个最近的婴儿发声实验（Venditti等人2025年），其中64名婴儿（年龄范围：7个月8天到8个月2天）经历了四个阶段：基线1（部分反馈）、社会反应（条件性反馈）、消退（无反馈）和基线2（部分反馈）。发声被建模为二元动作（0：沉默，1：发声），50个模拟步骤大约相当于1分钟的实时互动。在社会反应阶段，发声触发了条件性反馈（例如，看护者的反应或远程控制的汽车激活），而在消退阶段突然终止了所有反馈。因果参与得分——计算为发声条件性和基线结果分布之间的差异——按阶段平均，并标准化以匹配实证发声率。因为基线反应率被设置为与每个婴儿在熟悉阶段的看护者反应率相匹配，所以没有具体的实证基线数据。因此，我们假设了一个基线值0.7，并将模型验证限制在非基线阶段（社会反应和消退）。如图5所示，模型复制了实证模式：在社会反应阶段发声增加（反映了因果学习），并在消退阶段进一步加剧，这与我们的预测误差假设一致，即终止的条件性触发补偿性尝试以恢复预期的社会反馈，证明了该框架能够泛化到社会认知领域。

4 讨论

尽管因果概念是婴儿动机研究的核心，这些研究主要集中在控制和能动性等概念上（Gopnik和Schulz 2004；Watanabe和Taga 2011；Watson 1966），但使婴儿能够在开放环境中发现因果结构的具体计算机制仍然是一个关键的研究领域。许多现有的计算方法要么通过依赖预先指定的奖励函数来绕过发现问题，如简单的强化，要么采用启发式方法，如熵减少，这些方法在复杂和更具生态学有效性的场景中可能会失败。控制虽然与因果关系密切相关，但它包括两个方面：（1）影响幅度——量化动作如何改变结果；（2）预测规律性——评估动作如何可靠地映射到结果。这些维度与信息论中的可控性定义一致，通过边际和条件熵度量来操作化（Touchette和Lloyd 2004），这些度量在干预（例如，肢体运动）和基线（不活动）下测量结果之间的分布差异。虽然之前的工作使用KL散度等度量来量化这些差异（Seitzer等人2021），但我们的框架采用Wasserstein距离与分位数回归相结合（见第3节），在对称性、计算效率和非参数灵活性方面具有优势。与基于熵的方法不同，我们的方法通过独立建模边际结果分布来绕过对所有可能干预的整合——这一设计受到了随机对照试验（RCTs）（Lee等人2019）和自然直接效应估计（VanderWeele和VanderWeele 2015）的启发。此外，虽然能动性研究强调中介因素（例如，区分直接控制与间接控制），但我们的因果中心度量为未来的研究提供了一个基础视角，以剖析婴儿如何将因果效力归因于自己的动作与外部代理（Sloan等人2023）。通过将可控性的定量严谨性与因果抽象相结合，这项工作推进了一个统一的框架，用于理解婴儿如何发现和适应动态环境中的影响。

3.3 婴儿条件性发声的模拟

为了证明我们方法的普遍性，我们模拟了一个最近的婴儿发声实验（Venditti等人2025年），其中64名婴儿（年龄范围：7个月8天到8个月2天）经历了四个阶段：基线1（部分反馈）、社会反应（条件性反馈）、消退（无反馈）和基线2（部分反馈）。发声被建模为二元动作（0：沉默，1：发声），50个模拟步骤大约相当于1分钟的实时互动。在社会反应阶段，发声触发了条件性反馈（例如，看护者的反应或远程控制的汽车激活），而在消退阶段突然终止了所有反馈。因果参与得分——计算为发声条件性和基线结果分布之间的差异——按阶段平均，并标准化以匹配实证发声率。因为基线反应率被设置为与每个婴儿在熟悉阶段的看护者反应率相匹配，所以没有具体的实证基线数据。因此，我们假设了一个基线值0.7，并将模型验证限制在非基线阶段（社会反应和消退）。如图5所示，模型复制了实证模式：在社会反应阶段发声增加（反映了因果学习），并在消退阶段进一步加剧，这与我们在婴儿中观察到的消退爆发一致。这种激增与我们的预测误差假设一致，即终止的条件性触发补偿性尝试以恢复预期的社会反馈，证明了该框架能够泛化到社会认知领域。

4 讨论

虽然因果概念是婴儿动机研究的核心，这些研究主要集中在控制和能动性等概念上（Gopnik和Schulz 2004；Watanabe和Taga 2011；Watson 1966），但使婴儿能够在开放环境中发现因果结构的具体计算机制仍然是一个关键的研究领域。许多现有的计算方法要么通过依赖预先指定的奖励函数来绕过发现问题，如简单的强化，要么采用启发式方法，如熵减少，这些方法在复杂和更具生态学有效性的场景中可能会失败。控制虽然与因果关系密切相关，但它包括两个方面：（1）影响幅度——量化动作如何改变结果；（2）预测规律性——评估动作如何可靠地映射到结果。这些维度与信息论中的可控性定义一致，通过边际和条件熵度量来操作化（Touchette和Lloyd 2004），这些度量在干预（例如，肢体运动）和基线（不活动）下测量结果之间的分布差异。虽然之前的工作使用KL散度等度量来量化这些差异（Seitzer等人2021），但我们的框架采用Wasserstein距离与分位数回归相结合（见第3节），在对称性、计算效率和非参数灵活性方面具有优势。与基于熵的方法不同，我们的方法通过独立建模边际结果分布来绕过对所有可能干预的整合——这一设计受到了随机对照试验（RCTs）（Lee等人2019）和自然直接效应估计（VanderWeele和VanderWeele 2015）的启发。此外，虽然能动性研究强调中介因素（例如，区分直接控制与间接控制），但我们的因果中心度量为未来的研究提供了一个基础视角，以剖析婴儿如何将因果效力归因于自己的动作与外部代理（Sloan等人2023）。通过将可控性的定量严谨性与因果抽象相结合，这项工作推进了一个统一的框架，用于理解婴儿如何发现和适应动态环境中的影响。消退爆发现象，尽管其背后的动机仍有争议，但与违反期望的解释一致（见第1节），其中婴儿放大动作以解决被破坏的因果预测。这种解释与基于可控性的模型（第3.2节）相反，后者本质上惩罚那些引起高结果不确定性的动作，因为它们优先考虑稳定的、低熵状态。同样，传统的因果和可控性模型通过优化确定性的动作-结果映射来隐性地抑制不确定性，从而创造了探索-利用的紧张关系：代理必须平衡利用学习到的因果关系与探索新假设。我们的模型通过线性加权期望违反（探索）与因果确定性（利用）来解决这种紧张关系。我们选择了这种简单的启发式方法，因为目前尚未解决控制这种权衡的真正神经认知机制。通过将利用（因果推断）和探索（惊喜驱动的假设测试）分解为模块化组件，未来的工作可以系统地研究发展阶段如何调节这种平衡——例如，婴儿在早期学习阶段是否优先考虑探索，然后在因果模型稳定后转向利用（Gopnik等人2017，2020）。这个框架为将行为观察与适应性学习的计算原理统一提供了途径。有趣的是，（Spisak等人2025）开发了一个框架，成功模拟了肢体特定活动的增加和消退爆发——特别是在基线与控制和二元与非二元组之间——而没有明确建模能动性或惊喜。相反，他们使用专门的计算方案来推导损失函数，鼓励在可预测性和新颖性之间进行权衡。然而，对硬编码的新颖性阈值和基于MSE的预测误差的依赖限制了模型处理复杂随机结果的能力，例如我们在模拟中讨论的双峰情况（第3.2节）。此外，由于设计损失函数在概念上与奖励工程类似，这种方法可能并不构成强化学习的独特替代方案。这项工作存在几个局限性。首先，所提出的基于因果关系的应急检测框架主要作为一个概念验证。因此，模拟简化了婴儿的体验：复杂的运动被简化为弹道性的二元动作，高维视觉输入由表示移动量的标量随机变量的数值样本表示。其次，模型对反转和双峰情况的预测（第3.1节和第3.2节）需要通过实证实验来验证它们与婴儿主体感的相关性。具体来说，如果我们的模型预测得到证实，那么在反转和双峰情况下的婴儿仍然会放大与其它肢体相比的移动频率。另一个局限性是缺乏非应急控制条件，即随机或实验者发起的移动（Angulo-Kinzler等人2002年；Popescu等人2021年；Sloan等人2023年）。解决这些限制留待未来的研究。这项工作为认知发展的计算建模开辟了几条有前景的途径。首先，将框架扩展到多模态学习——整合本体感觉、触觉和听觉反馈——可以捕捉婴儿如何在感官领域中泛化因果主体性，例如将发声与照顾者的反应或物体操作与触觉结果联系起来。通过MIMo（多模态婴儿模型，Mattern等人2022年，2024年）等模拟平台，解决这些问题已成为可能。其次，结合层次化因果推理将使代理能够推断出更高层次的应急性（例如，控制动作产生效果的情境规则），这反映了婴儿从稀疏互动中抽象出因果模式的能力。第三，将模型与神经成像（例如，婴儿EEG/fNIRS）相结合，可以将计算信号（如预测误差或Wasserstein距离）映射到神经相关性（例如，MMN、theta振荡），从而在计算和生物学分析层面之间建立桥梁。此外，嵌入发展轨迹——模拟探索-利用平衡的成熟变化——可以阐明因果学习策略如何从婴儿期发展到成年期。最后，在物理机器人中部署这些模型可以测试它们在工程领域的实用性，促进像婴儿一样通过好奇心驱动的实验在物理世界中学习的自适应AI（Poli等人2024年）。通过结合因果推断、发展心理学和计算神经科学，这个框架为研究人类主体性的起源及其终生可塑性提供了新的视角。

致谢

XX得到了西安电子科技大学-FIAS国际联合研究中心的支持。此外，还获得了德国研究基金会（DFG）在德国卓越战略（EXC 3066/1 “The Adaptive Mind”，项目编号533717223）下的支持，以及通过项目FOR 5368（“神经架构中的抽象表示（ARENA）”，项目编号459426179）的支持。JT得到了Johanna Quandt基金会的支持。开放获取资金由Project DEAL提供和组织。

利益冲突

所有作者均无需要披露的利益冲突。

附录A

A.1 余弦退火策略

图6展示了1周期余弦退火策略的学习率曲线（左）以及使用固定学习率0.03的结果（右）。与图1相比，未连接肢体的消退爆发更为明显，这是因为恒定的高学习率导致学习到的分位数值过快地适应新的结果分布。

A.2 对分位数数量的敏感性

为了研究分位数粒度如何影响建模结果，我们改变了标准移动-共轭范式模拟中的分位数数量。我们对不同的分位数数量进行了模拟；结果中的应急肢体因果参与分数显示在图7中。在连接阶段观察到活动增加，随后出现了消退爆发，这适用于所有分位数值（对应于大约33%到1%的百分位数区间）。然而，较低的分位数数量（例如）导致高变异性和锯齿状曲线。因此，在正文中呈现的主要分析中，我们选择了2%的百分位数区间，以平衡曲线的平滑度和计算效率。

数据可用性声明

本研究中使用的所有数据均来自公开发布的来源。数据建模的源代码将在接受后公开提供。所有作者均无需要披露的利益冲突。我们遵守Wiley的研究诚信和出版伦理。计算模型的源代码以及用于运行模拟的脚本可以在TrieschLab-CAIS上获取。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部