动物如何学习新任务?这一看似简单的问题背后隐藏着复杂的行为动态。在学习过程中,个体会不断调整策略,表现出突然的突破和渐进的改进,而且不同个体的学习路径差异显著。传统的学习方法往往将学习简化为从"未学会"到"学会"的二元转变,或者只关注稳定期的行为,忽略了学习过程中丰富的动态变化。这种简化使得研究人员难以全面刻画学习曲线的复杂性,特别是在个体差异显著的情况下。
为了解决这一难题,德国图宾根大学和马克斯·普朗克生物控制论研究所的Sebastian A. Bruijns领导国际脑实验室(International Brain Laboratory)团队,在《Nature Neuroscience》上发表了一项创新研究。他们开发了一种动态无限隐半马尔可夫模型(dynamic infinite hidden semi-Markov model, diHMM),能够自动识别和跟踪动物在学习过程中表现出的各种行为状态。
为了开展这项研究,研究人员主要采用了几个关键技术方法:首先建立了动态无限隐半马尔可夫模型的数学框架,使用吉布斯采样(Gibbs sampling)进行贝叶斯推断;其次利用国际脑实验室标准化收集的134只C57BL/6J小鼠行为数据集,包含超过190万次试次;采用多层次模型验证方法,包括交叉验证、后验预测检查和模型恢复分析;开发了专门的状态聚类和一致性分析方法来解决多模态后验问题。
模型框架设计
研究人员设计的diHMM模型在三个关键方面扩展了传统隐马尔可夫模型(HMM)。首先,模型采用贝叶斯非参数方法,不预先设定状态数量,而是通过分层狄利克雷过程(hierarchical Dirichlet process)自动确定每个个体最适合的状态数量。这种设计允许模型在检测到行为发生显著变化时引入新状态,从而捕捉学习过程中的突变。
其次,模型允许状态特征随时间缓慢变化。通过在每个状态的心理测量函数权重上设置高斯随机游走先验,模型能够捕捉技能的渐进改善,这代表了学习的另一种重要形式。最后,模型采用半马尔可夫框架,允许状态持续时间服从负二项分布,而不是传统HMM中的几何分布,从而更灵活地描述状态持续时间的分布特征。
每个行为状态都对应一个通过逻辑回归(logistic regression)实现的心理测量函数(psychometric function, PMF),该函数将任务相关变量(如左右对比度、坚持性偏差等)映射到选择概率分布。模型通过Pólya-Gamma数据增强技术实现有效的贝叶斯推断,并使用前向滤波后向采样算法(forward filter backward sample algorithm)来估计状态权重的动态变化。
单个动物的详细拟合
以小鼠KS014为例,模型识别出8个不同的行为状态,这些状态在训练过程中依次出现和消失,展现了典型的学习轨迹。小鼠最初处于状态1,表现出平坦的心理测量函数,表明它完全忽略感觉输入的位置信息。
状态2持续了四个会话期,行为相对一致但仍未理解任务本质。随后出现的状态3表现出明显的不对称性,小鼠开始关注屏幕的一侧但忽略另一侧。有趣的是,尽管状态4在同期就表现出良好的双侧表现,但小鼠大部分时间仍停留在状态3,显示动物即使已经掌握更好策略,也可能无法或不愿意持续使用。
状态6的出现标志着学习的重大突破,小鼠开始对双侧刺激都产生适当反应。状态7则捕捉了短暂的性能下降,可能源于注意力波动。最后,状态8代表另一个显著变化,小鼠在100%对比度上的表现突然提高,完成该阶段的训练。
会话期内的状态转换
模型不仅捕捉会话期间的行为状态,还能检测会话期内的精细变化。在会话期12中,模型检测到两次明显的状态转换。第一次转换发生在试次330-380之间,小鼠突然从适当反应转变为持续的右侧选择,即使左侧呈现明显刺激。
模型还能识别更细微的行为差异。状态4和状态6的心理测量函数表面相似,但详细分析显示它们分别对应左侧和右侧的错误模式。状态6在左侧对比度上错误更多,而状态4在右侧对比度上表现较差。这种差异在统计上显著,证明了模型区分相似但本质不同行为状态的能力。
群体分析结果
对134只小鼠的群体分析揭示了学习过程的一般规律。研究人员将行为状态分为三种类型:类型1(奖励率<60%)对应平坦的心理测量函数,动物忽略刺激信息;类型2(奖励率60-78%)主要为不对称状态,动物只对一侧刺激产生适当反应;类型3(奖励率>78%)对应良好的双侧表现。
基于状态类型,研究人员定义了学习阶段:阶段1动物只使用类型1状态;阶段2开始使用类型2状态作为主要策略;阶段3以类型3状态为主。大多数小鼠(除少数位于单纯形边缘外)都经历了所有三个阶段,但各阶段持续时间存在显著个体差异。
分析显示,动物在阶段3花费的时间最长(平均占训练时间的59%),阶段2最短(17%),阶段1居中(24%)。阶段1和阶段2持续时间呈弱相关(Pearson's r=0.21),而阶段1和阶段3几乎没有相关性(r=0.04),表明掌握任务基本要素与完善技能可能需要不同的能力。
慢过程与快过程的贡献
研究人员比较了状态内渐变(慢过程)和状态间突变(快过程)对行为改变的贡献。对比敏感度在两种过程中都显著增加,是驱动性能改善的主要因素。
有趣的是,偏差和坚持性权重在状态内部保持稳定,但在状态间突变时发生显著变化。快过程引起的权重变化绝对值显著大于慢过程(经过错误发现率校正后的Mann-Whitney U检验,所有12个比较P<0.05)。坚持性权重在整个学习过程中保持小而一致的作用,但随着敏感度的增加,其相对影响力逐渐减弱。
新状态出现模式
新状态的引入反映了行为的显著变化。分析显示,大多数新状态出现在训练早期,随着训练进行,新状态引入频率逐渐降低,表明渐进改进在学习过程中占主导地位。
更值得注意的是,大多数状态转换发生在会话期开始时,这与之前关于行为变化点倾向于出现在会话边界的研究发现一致。这种模式可能反映睡眠依赖的记忆巩固或动机重置过程。
个体差异的多样性
尽管存在一般规律,但个体差异仍然十分显著。类型1状态的偏差覆盖了整个可能范围,类型2状态的心理测量函数随机偏向左侧或右侧。令人惊讶的是,类型1和类型2的偏差方向没有显著关联——在56只经历突然类型2 onset的小鼠中,31只表现出与之前类型1状态相同的偏差方向,25只则不同(二项检验P=0.504),表明早期偏差不能预测后期的注意偏向。
训练所需的会话期数量差异很大,跨度达一个数量级。有趣的是,许多训练时间长的小鼠反而被较少的状态所描述,这些状态通过慢过程发生显著变化,显示渐进改进在长期训练中的重要性。
研究意义与展望
这项研究开发了一个高度灵活的描述性模型,能够从动物首次接触任务到成为专家的整个学习过程中刻画行为变化。通过应用于国际脑实验室决策任务的数据,展示了该方法在区分快速突变和缓慢渐变方面的强大能力。
研究发现,小鼠在该任务上的学习普遍经历三个 distinct 阶段:初始的未分化行为、单侧任务理解阶段和完整的任务掌握阶段。这些宏观特征在不同小鼠间保持一致,但具体细节和进展方式存在显著个体差异。
阶段间进展时间的弱相关性表明,不同学习阶段可能需要不同的能力基础。后续的偏置区块训练(biased block training)持续时间与主要训练阶段没有正相关性,进一步证明学习受多种因素影响。
该模型的优势在于不依赖大规模数据集即可应用于个体分析,且通过交叉验证表明对超参数选择不敏感。然而,模型也存在一些局限性,如慢变化方差参数的设定会影响新状态引入与现有状态适应的平衡,未来可能需要更差异化的处理。
模型可扩展性较强,未来可加入反应时、瞳孔直径或身体姿态等额外观测变量,增强行为模式的区分能力。该框架还可应用于其他渐进变化过程,如衰老或神经康复过程中的行为演变。
总之,这项研究提供的工具将使研究人员能够以系统而深入的方式研究行为发展,为理解学习的神经机制奠定基础。通过揭示学习过程中丰富的动态特征和个体差异,该研究挑战了简单化的学习观念,强调需要更精细的理论框架来理解这一复杂过程。