全球供应链运行在一个充满不确定性的环境中,这些不确定性源于地缘政治冲突、与气候相关的干扰以及物流效率低下(López等人,2025年)。这些因素极大地影响了库存和运输决策的有效性,从而影响了供应链关键维度的不确定性估计的准确性。在这种情况下,传统的库存和运输策略往往依赖于过于简化或确定性的方法来量化这些不确定性,而没有考虑到现实世界供应链运作的动态性质。尽管现有方法主要集中在预测下游需求上,但在研究和实践中,对上游补货提前期的预测关注较少(Li,2020年)。这种对需求侧建模的重视,加上对提前期动态的简化处理,限制了传统方法适应现实世界供应链变异性的能力,往往导致系统性能不佳。作为回应,数据驱动的方法变得越来越重要。深度学习模型,如长短期记忆网络(LSTM)(Gao等人,2023年)和Transformer(Ma等人,2025年),已被广泛用于时间序列预测,提高了捕捉时间依赖性和提高预测准确性的能力。同时,多智能体强化学习(MARL)作为一种强大的框架,用于多层级供应链系统中的分散决策。通过将供应链互动建模为部分可观测马尔可夫决策过程(POMDP),MARL使智能体能够在信息不完全和动态条件下学习自适应策略(Song等人,2024年;Kotecha和del Rio Chanona,2025年),在改善协调性和运营性能方面显示出巨大潜力。
尽管取得了这些进展,现有的预测和决策方法仍存在关键局限性。由于主要基于关于补货提前期的确定性或简单随机假设进行操作,最先进的MARL算法,如多智能体近端策略优化(MAPPO)和多智能体软演员-评论家(MASAC),在现实世界的部分可观测环境中表现出有限的鲁棒性和适应性。尽管LSTM和Transformer在捕捉时间模式方面表现出色,但它们主要生成确定性点预测,缺乏量化预测不确定性的能力。这限制了它们在风险敏感决策情境中的适用性,特别是在高变异性或意外干扰下。同时,扩散模型因其在概率预测方面的能力而受到越来越多的关注,通过学习去噪过程捕捉不确定变量的复杂分布(Jiang等人,2025年)。
为了解决这些双重挑战,本研究采用扩散模型实现提前期的概率预测,通过蒙特卡洛抽样和信息熵来量化不确定性。随后将这种方法与MARL集成,增强了智能体适应不确定和部分可观测供应链环境的能力。由此产生的框架显著提高了对干扰和变异性的鲁棒性,为全球供应链中的联合库存和运输优化提供了基于不确定性意识的决策解决方案。本文的主要贡献总结如下:
1. 我们提出了一种基于熵引导的不确定性意识预测策略,该策略利用扩散模型的蒙特卡洛抽样。在每个决策步骤中,从抽样的提前期分布中计算信息熵以量化预测不确定性。在高熵场景中,使用分布的上分位数来防范潜在的延迟;在低熵环境中,使用算术平均值来提高运营效率。这种自适应机制使智能体能够动态平衡风险缓解和成本效益。
2. 我们提出了一种新颖的强化学习集成框架DE-MAPPO,它结合了因果U-Net条件扩散模型和MAPPO。扩散模型提供补货提前期的概率预测,而全局奖励重新平衡系数被引入MAPPO中,以动态调整全球供应链效率目标与局部利润最大化。这种集成使分销商和零售商智能体能够在部分可观测条件下实现协调策略。
3. 我们通过一个全球化学供应链案例研究验证了所提出的DE-MAPPO框架,明确模拟了关键瓶颈节点的时间延迟不确定性。实验结果表明,所提出的方法在复杂、波动和部分可观测环境中显著提高了供应链的整体盈利能力和成本效益,实现了更加适应性和稳健的决策。
本文的其余部分组织如下。第2节回顾相关文献。第3节描述研究的问题并提供了数学模型的构建。第4节解释了解决问题的方法。第5节提供了一个包含多种条件情景的数值示例,并分析了我们的模拟结果。最后,在第6节中,我们陈述了我们的结论、研究局限性和未来方向。