机器学习在人畜共患病流行病学各阶段应用的范围综述

时间:2026年5月16日
来源:Transboundary and Emerging Diseases

编辑推荐:

新发人畜共患病对全球健康构成重大威胁。尽管机器学习(Machine Learning, ML)在该类疾病管理中展现出应用潜力,但目前仍缺乏对其如何覆盖从动物到人类完整传播通路应用的系统性认知。研究人员通过开展范围综述,系统梳理了ML在人畜共患病管理中的应用分布

广告
   X   

新发人畜共患病对全球健康构成重大威胁。尽管机器学习(Machine Learning, ML)在该类疾病管理中展现出应用潜力,但目前仍缺乏对其如何覆盖从动物到人类完整传播通路应用的系统性认知。研究人员通过开展范围综述,系统梳理了ML在人畜共患病管理中的应用分布,旨在识别不同流行病学阶段、不同功能域的研究趋势、方法学路径及关键缺口。研究沿两个维度组织文献:一是流行病学阶段,覆盖从动物宿主到人类群体的全过程;二是功能域,包括诊断、流行病学与干预。研究人员检索了PubMed与Web of Science数据库中针对14种预设高优先级人畜共患病的相关研究,检索策略融合了目标疾病、ML技术与功能应用(诊断、流行病学、干预)的关键词。最终纳入966项研究进行分析,其中72.8%聚焦于新型冠状病毒肺炎(Coronavirus Disease 2019, COVID-19)。分析结果显示,ML在人类群体的临床诊断、疫情预测及干预优化方面表现出稳健性能;然而关键缺口依然存在——仅1.96%的研究关注动物—人类界面,尚无ML模型明确以溢出预防为目标,动物储存宿主监测相关研究仍然有限。所有溢出阶段研究均来自高收入国家或中高收入国家(Upper-Middle-Income Countries, UMICs),而低收入及中低收入国家(Low- and Lower-Middle-Income Countries, LMICs)贡献了21.4%的人类阶段研究。上述发现揭示了研究投入与溢出风险之间存在显著错配,凸显了未来需加强对溢出机制的关注、深化跨物种传播动力学的整合,并开发适用于资源受限地区监测的方法。解决这些不平衡问题,对于推动从被动应对暴发向在“同一健康(One Health)”框架下主动预防溢出转变至关重要。
研究背景与意义
人畜共患病由可在动物与人类间自然传播的病原体引发,对全球健康、经济及粮食安全构成严峻挑战。历史大流行及持续疫情表明其破坏力巨大,超过60%的新发传染病及约75%的新人类病原体源于动物。因此,理解与预防跨物种传播是流行病监测的核心目标。该类疾病具有高发性、广泛社会影响及快速全球扩散的特点,使得被动应对模式失效。COVID-19大流行警示了局部溢出事件可在数周内演变为全球危机,亟需覆盖从动物宿主到人类群体全通路的主动、多层监测与预测体系。传统数学模型在处理复杂人畜共患生态时面临过度简化或难以验证的局限。机器学习(ML)擅长识别复杂系统中的非线性关系与隐藏模式,无需先验机制假设即可实现精准建模,且具备自适应学习能力,适配病原体动态演化特征。然而现有综述多聚焦人类感染后的特定阶段,缺乏对完整传播通路的整合视角,难以识别早期干预机会与技术缺口。在此背景下,研究人员开展了这项范围综述,系统绘制ML在全通路中的应用图谱,为构建前瞻性防控策略提供路线图。该研究发表于《Transboundary and Emerging Diseases》。
关键技术方法
研究人员采用范围综述方法,依据PRISMA-ScR指南执行。构建了包含三个流行病学阶段的分析框架:动物宿主/媒介监测、动物—人类界面溢出风险评估、人类群体管理。同时按功能域划分为诊断、流行病学、干预三类。研究选取14种具有高负担或大流行潜力的代表性人畜共患病,涵盖媒介传播、直接接触、空气/飞沫传播等途径。检索策略融合疾病、ML技术及功能应用关键词,于2023年7月10日检索PubMed与Web of Science。由多名评审员独立执行文献筛选,依据预设标准纳入原始研究,排除非ML核心应用或数据预处理类研究。采用标准化表格提取数据,包括疾病、国家、阶段、功能域、算法、数据类型及收入分组。鉴于研究异质性,未进行荟萃分析,而是采用叙述性综合方法,沿概念框架分组归纳趋势与缺口。
研究结果
3.1 研究筛选与特征
初检获得27390篇文献,去重后通过题目摘要及全文筛选,最终纳入966篇。研究被归类至六个应用领域:人类群体临床诊断与患者评估(n=515)、人类群体人畜共患病流行病学与风险评估(n=315)、人类群体干预策略与优化(n=92)、动物宿主病原体检测与媒介监测(n=18)、动物及媒介空间格局与决定因素(n=56)、动物—人类界面溢出风险预测(n=19)。地理分布显示中国(183篇)、美国(154篇)、印度(109篇)发文量领先。研究数量在2020至2022年间激增,主要集中于COVID-19(72.8%),溢出阶段研究极少。深度学习(Deep Learning, DL)自2020年起超越传统ML成为主导,分类与回归为主要任务,强化学习(Reinforcement Learning, RL)多用于序贯决策。
3.2 人类群体临床诊疗与患者评估
该领域共515篇文献,利用15种ML模型处理12类数据。核心任务包括疾病检测诊断(n=412)、严重程度评估与病灶分割(n=68)、预后预测(n=56)。卷积神经网络(Convolutional Neural Network, CNN)主导医学影像分析(n=268),随机森林(Random Forest, RF)常用于人口统计学数据(n=60)。CNN结合迁移学习解决数据稀缺,Transformer架构用于精准病灶分割。结构化数据(人口统计、临床、实验室)分析广泛应用于诊断、预后建模及风险因素识别。研究还探索了生成对抗网络(Generative Adversarial Network, GAN)用于数据增强、联邦学习(Federated Learning, FL)保障数据隐私,以及光谱学、音频分析等新型诊断模态。
3.3 人类群体人畜共患病流行病学与风险评估
该领域共315篇文献,利用16种模型分析8类数据。主要聚焦发病率与死亡率预测(n=250)及时空风险分析(n=75)。人工神经网络(Artificial Neural Network, ANN, n=101)与循环神经网络(Recurrent Neural Network, RNN, n=97)因擅长处理时间序列数据而被广泛应用。方法分为两类:直接数据驱动建模(n=196)与融合机制原理的混合建模(n=119)。后者将ML与易感-感染-恢复(Susceptible-Infected-Recovered, SIR)等区室模型结合,通过ML动态估计时变参数,或利用物理信息神经网络(Physics-Informed Neural Networks, PINNs)将微分方程嵌入损失函数。图神经网络(Graph Neural Network, GNN)被用于分析移动性网络等结构化数据上的传播规律。实时数字数据流(如搜索引擎趋势、社交媒体文本)也被整合用于精细化监测。
3.4 人类群体干预策略与优化
该领域共92篇文献,利用16种模型分析7类数据。主要分为公共卫生政策与行为干预(n=71)及关键资源优化配置(n=21)。强化学习(RL, n=37)是核心方法。研究范式分为评估性与规范性两类。评估性框架利用监督或无监督学习评估干预效果或识别优先人群,例如用RF识别影响再生数(Re)的关键因素,或用决策树指导疫苗分配优先级。规范性框架则利用RL寻找最优动态控制策略,常在基于智能体的模型(Agent-Based Model, ABM)环境中训练智能体,平衡感染控制与社会成本。混合框架结合了预测与决策,提升了决策的预见性与精准度。
3.5 动物宿主病原体检测与媒介监测
该领域共18篇文献,利用5种模型分析7类数据。应用包括动物病原体检测(n=5)与媒介孳生地识别及物种分类(n=13)。CNN主导图像视频分析(n=12)。可穿戴设备生理遥测数据结合RF能有效检测非人灵长类病原体暴露。质谱结合CNN可高精度监测蚊媒沃尔巴克氏体感染。基于无人机影像、公民科学平台图像的CNN模型实现了高效的媒介孳生地及物种识别,并已有移动端预警工具投入实地应用。
3.6 动物及媒介空间格局与决定因素
该领域共56篇文献,利用11种模型分析9类数据。最大熵模型(Maximum Entropy, MaxEnt, n=30)与Boosting(n=15)最常用,环境数据(n=53)与昆虫学数据(n=39)是主要输入。应用包括模拟动物宿主与媒介种群(n=38)、预测病原体感染与暴发(n=17)、识别风险因素(n=16)。ML提供了比传统随机方法更高效的计算替代方案,用于预测蚊虫丰度、空间分布及评估控蚊措施效果。气候变量被一致识别为关键预测因子。
3.7 动物—人类界面溢出风险预测
该领域共19篇文献,利用9种模型分析7类数据。分为诊断建模(分析溢出源与传染性,n=11)与流行病学建模(预测溢出风险与环境适宜性,n=8)。RF主导诊断任务,生物数据是主要输入;MaxEnt主导流行病学任务,环境数据是主要输入。诊断应用聚焦于识别高风险宿主(如利用梯度提升模型预测尼帕病毒潜在蝙蝠宿主)与表征病原体人畜潜力(如利用ANN预测刺突蛋白人受体结合能力)。流行病学应用则评估溢出风险及驱动因素,常整合宿主分布、环境、社会经济数据构建混合模型。值得注意的是,所有溢出研究均来自高收入或中高收入国家,无低收入国家研究,且无针对溢出预防的干预模型。
讨论与结论
讨论部分指出,当前研究呈严重失衡状态,过度集中于人类感染后阶段,尤其是受COVID-19驱动,而对源头及界面阶段的预防性研究严重不足,反映了被动应对而非主动预防的模式。这种失衡因传播模式和地理环境而异:媒介传播疾病占溢出研究主流,但多依赖物种分布模型,未充分整合媒介动态与实际跨物种传播;直接接触传播疾病(如猴痘、HIV)的溢出阶段研究匮乏,未纳入狩猎、贸易等行为预测因子;空气/飞沫传播病原体的基因组预测模型存在谱系盲区。地理错配尤为突出,所有溢出研究均来自高收入/中高收入国家,而高风险的中低收入国家毫无贡献,削弱了“同一健康”框架下的早期预警能力。此外,干预模型缺失、验证策略差异导致性能指标不可比、真实世界部署案例稀少、数据隐私与互操作障碍、以及模型可解释性与因果推断的缺乏,共同限制了转化应用。
结论重申,ML在人畜共患病通路中的应用存在关键不平衡。研究集中于溢出后的人类应对,而动物储存宿主及界面监测未被充分探索。COVID-19引发的被动研究激增及其催生的对深度学习(DL)的依赖,可能不适用于数据稀缺的其他疾病。未来需发展覆盖全通路的集成ML框架,加强跨部门数据整合,并在高风险地区支持参与式模型开发,以实现“同一健康”框架要求的主动溢出预防。

生物通微信公众号
微信
新浪微博


生物通 版权所有