基于Covasim智能体模型与强化学习的传染病动态干预策略优化研究

时间：2026年4月1日

来源：Scientific Reports

编辑推荐：

本研究聚焦于在传染病大流行期间制定高效、动态的干预策略这一严峻挑战。研究人员利用英国COVID-19真实流行病学数据，将精细的智能体模型Covasim与深度强化学习（RL）算法（如PPO、DQN）相结合，构建了一个决策支持框架。研究表明，该框架能够学习到优于传统“7天工作-7天封锁”策略的动态干预方案，在有效抑制疫情规模（如控制感染总人数）与保障经济系统稳定之间实现了更优的权衡。这项研究为公共卫生决策者提供了一种数据驱动的、可自适应的智能决策新范式，对全球公共卫生安全策略的制定具有重要参考价值。

在全球公共卫生领域，传染病的暴发犹如一场场突如其来的风暴，不仅严重威胁人类的生命健康，也对全球经济结构和社会稳定构成严峻挑战。近年来，COVID-19的大流行更是以惊人的破坏力，深刻揭示了传统传染病防控策略在面对复杂、动态疫情时的局限性。无论是隔离、社交距离还是旅行限制，这些传统措施虽然在特定场景下有效，但在资源有限或信息不完整的复杂现实环境中，其效果往往大打折扣。决策者们急需一种能够快速、精准制定控制策略，并能根据疫情动态实时调整的工具，以期在最大限度地减少感染和死亡人数的同时，兼顾经济和社会成本。然而，传统的依赖专家经验的决策模式，难以应对传染病传播系统中的复杂性与不确定性，一个微小的变化就可能引发难以预测的巨大动态差异。

正是在这样的背景下，一项发表于《Scientific Reports》的研究，为我们打开了一扇新的窗口。这项研究题为“利用英国COVID-19流行病数据和强化学习优化传染病干预措施”，其核心目标是探索如何将前沿的人工智能技术——深度强化学习，与高度精细的传染病传播模拟模型相结合，从而为决策者提供一个智能、自适应的动态干预策略生成框架。这就像是为抗击疫情的指挥官配备了一位能够24小时不间断分析战场态势、并即时生成最优作战方案的AI“军师”。

为了回答“如何动态优化干预策略”这一核心问题，研究人员主要运用了几个关键技术方法。首先是模型构建与校准：研究选择了Covasim这一开源的、基于智能体的精细传染病传播模型作为基础模拟环境。研究者利用英国2020年1月至5月的真实确诊和死亡病例数据，通过参数优化，使模型能够高度准确地反映该国当时的疫情动态，这为后续的智能决策提供了可靠的“数字沙盘”。其次是环境封装与交互设计：研究利用OpenAI Gym库，将Covasim模型封装成一个适用于强化学习训练的环境（CovasimEnv），定义了状态空间（包含易感者S、暴露者E、感染者I等8个维度）、动作空间（涉及调整传播率Ch-β、检测概率Ch-Tp、接触者追踪概率Ch-CTp）以及精心设计的奖励函数（综合了健康奖励r_H和经济奖励r_E）。最后是算法应用与比较：研究在离散和连续两种动作空间设置下，系统性地应用并比较了深度Q网络（DQN，带优先经验回放PER）和近端策略优化（PPO）两种主流强化学习算法的性能，旨在验证方法框架的普适性与有效性。

研究结果部分详细展示了这一智能决策框架的效能。

参数校准与真实世界数据：通过Optuna库优化模型初始参数后，Covasim模型对英国累计确诊病例和死亡病例的模拟结果与真实数据高度吻合，有力证明了该传染病模型的有效性，为后续的强化学习优化奠定了坚实基础。

在使用真实世界数据校准的环境中使用RL：这是研究的核心发现部分。在离散动作空间中，PPO算法的收敛性和最终回报优于DQN算法。两种算法学到的策略都比拟合真实数据的基线策略更能有效预防疫情，将累计感染人数限制在约32万左右。然而，DQN策略倾向于在早期执行高强度紧急封锁后即转为低强度干预，而PPO策略在离散空间中存在较大波动。在连续动作空间中，PPO算法表现更佳，其训练曲线稳定收敛，学到的策略更为合理：疫情初期立即实施高强度封锁并配合严格检测与追踪，随后逐步放松封锁并调整检测追踪强度，后期为防止疫情反弹会重新引入高强度封锁。该策略最终将累计感染人数控制在约30万。

与传统策略及多维度评估的比较：研究将智能体学到的策略与传统的“7天工作-7天封锁”策略进行了对比。结果显示，PPO连续动作空间策略在控制感染人数（约30万 vs. 约100万）和减少经济损失（-4.31% vs. -5.47%，相较于反映真实数据的策略）两方面均表现更优，凸显了其在平衡防疫与经济方面的优势。对实时再生数R_t的分析进一步表明，PPO策略能使R_t值更快降至1.0以下，强调了及时合理干预的重要性。此外，研究还将基于英国数据学到的策略应用于拟合香港疫情数据的参数环境中，发现策略依然表现良好，证明了所学策略具有一定的稳定性。

在讨论部分，作者总结了本研究的价值与未来方向。本研究成功验证了在个体智能体传染病传播模型上应用强化学习进行防控决策的可行性。通过构建Covasim-RL集成环境，并运用DQN和PPO算法在不同动作空间下进行深入探索，实验表明该方法具有显著优势，达到了为传染病防控提供强化学习驱动的有效决策框架的初步目标。此外，研究创新性地对干预措施的“持续时间”进行了考量，将强化学习的时间步长设置为7天，更符合现实中政策调整不会过于频繁的实际情境。展望未来，作者指出将在奖励函数设计上进行更深入研究，以更好地平衡“疫病防控效果”与“经济影响”。

结论：这项研究构建并验证了一个基于智能体模型Covasim与深度强化学习相结合的传染病动态干预策略优化框架。该框架能够利用真实世界数据校准的模拟环境，通过智能体（AI Agent）自主学习出一套动态、高效的干预策略。与依赖固定模式的传统策略（如周期性封锁）相比，该智能策略能够在更早阶段压制疫情峰值，以更小的社会经济代价（如更低的封锁比例和更少的经济损失），实现更优的疫情控制效果（显著降低累计感染和死亡人数）。这项工作为应对未来可能出现的传染病大流行提供了一种创新的、数据驱动的决策支持工具，展示了人工智能在辅助复杂公共卫生决策、实现精准与自适应防控方面的巨大潜力，对全球公共卫生安全策略的制定具有重要的理论与实践意义。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部