信息不确定性对序列延迟奖励中学习策略的影响机制研究

时间:2026年2月9日
来源:PLOS Computational Biology

编辑推荐:

本研究通过创新性的时序信用分配(Temporal Credit Assignment, CA)任务,结合计算建模(如资格迹Eligibility Trace和表格更新Tabular Update策略),揭示了信息不确定性如何动态调节人类在延迟奖励环境中的学习策略。实验发现,低信息不确定性(Disjoint条件)促进前瞻性表格策略(βtab显著增加),而高不确定性(Conjoint条件)更依赖回顾性资格迹策略。研究为理解人类在复杂时序决策中的策略适应性提供了计算神经科学层面的新证据。

广告
   X   

引言:时序信用分配(Temporal Credit Assignment)问题是强化学习领域的核心挑战之一,指个体在接收到延迟奖励后需回溯确定因果事件的过程。日常生活中普遍存在此类问题(如根据模糊赞赏调整烹饪策略)。本研究通过操纵反馈信息呈现方式(Conjoint/Disjoint条件)调控信息不确定性,对比了资格迹(Eligibility Trace)与表格更新(Tabular Update)两种策略在序列延迟奖励任务中的适应性。
实验设计与行为结果:142名参与者完成包含即时奖励(4种刺激)与2步延迟奖励(4种刺激)的配对选择任务。Disjoint条件分离呈现即时与延迟奖励信息,Conjoint条件则合并显示总和。行为数据显示,Disjoint条件首阶段组表现最优(正确选择率显著高于随机水平,b=0.1, p<0.001),且阶段顺序存在交互效应(起始于Disjoint条件者整体表现更优)。
计算模型验证:资格迹模型通过衰减参数(λelg)对历史动作进行序列更新,而表格模型独立更新即时(0F)与延迟(2F)选择。通过多水平逻辑回归分析特定行为标志(如延迟选项重现时的停留决策),发现表格模型在Disjoint条件下更精准预测参与者对2步前奖励信息的利用(Δ+-2F的95%CI重叠度更高)。混合模型虽整体拟合优度最佳(AIC最低),但策略权重分析表明条件特异性策略分化明显。
参数与机制分析:表格模型权重(βtab)在Disjoint条件下显著更高(b=0.12, p<0.001),且阶段顺序影响显著(起始于Disjoint组βtab更高)。资格迹的衰减率(λelg)在Conjoint条件下更快(b=0.11, p<0.001),反映高不确定性环境中的回溯策略调整。学习率(αtab)在Disjoint条件下提升(b=0.15, p<0.001),表明信息明确性促进价值更新效率。
讨论与意义:本研究实证了信息不确定性驱动学习策略转换的计算机制。低不确定性环境促进前瞻性表格策略的适应性应用,而资格迹作为稳健的通用策略在不同条件下保持稳定。阶段顺序效应提示初始经验对策略形成的持久影响。未来研究可结合工作记忆、坚持性等个体差异变量,进一步揭示复杂时序决策的认知神经基础。

生物通微信公众号
微信
新浪微博


生物通 版权所有