使用 XGBoost 机器学习框架预测索马里兰的疟疾暴发

时间：2026年5月18日

来源：Discover Public Health

编辑推荐：

摘要背景疟疾仍然是索马里兰面临的一个重大公共卫生挑战。本研究评估了一种初步的机器学习方法——而非一个完整的操作系统——在数据稀缺的环境中，利用有限的历史数据集（2002-2021年）来预测疟疾爆发的年份。方法采用年度数据进行了一项回顾性研究。极端梯度提升

摘要
背景
疟疾仍然是索马里兰面临的一个重大公共卫生挑战。本研究评估了一种初步的机器学习方法——而非一个完整的操作系统——在数据稀缺的环境中，利用有限的历史数据集（2002-2021年）来预测疟疾爆发的年份。

方法
采用年度数据进行了一项回顾性研究。极端梯度提升（XGBoost）模型对疟疾发病率进行了二分类，将其分为“爆发”年份和“非爆发”年份。为了解决小样本量（N=20）的方法学限制并降低过拟合的风险，采用了留一法交叉验证（LOYOCV）策略，并将结果与逻辑回归基线进行了比较。预测变量包括温度、降雨量、滞后一年的降雨量、城市化和土地利用模式。

结果
XGBoost模型的AUC为0.880，显著优于基线（AUC为0.710）。在最佳阈值下，模型的敏感性为0.750，精确度为0.600。然而，ROC曲线的离散阶梯状外观反映了模型对小样本中个别数据点的高敏感性，这表明应谨慎解释这些性能指标。

结论
尽管结果很有前景，但它们仍然是初步的。小样本量和21世纪初疟疾爆发的时间聚集性表明，这项工作更适合数据稀缺地区的概念验证，而不是一个确定的监测工具。需要使用更高分辨率的时间数据进行进一步的前瞻性验证，以确保这些关联的可靠性和普遍性，以便用于操作性早期预警。

1 引言
疟疾仍然是一个严重的全球健康威胁，在撒哈拉以南非洲地区造成的死亡人数最多[1, 2]。根据世界卫生组织2023年世界疟疾报告，全球估计有2.49亿病例，这凸显了自COVID-19大流行以来疟疾传播减少进展停滞的情况[2]。这种对气候敏感的媒介传播疾病受到气候因素（尤其是温度、降雨量和湿度）与蚊子生态之间复杂相互作用的影响[3, 4]。虽然温度调节媒介的发育和寄生虫的孢子形成，但降雨量决定了幼虫繁殖地的可用性，共同塑造了疟疾风险的变化格局[5]。尽管全球有减少传播的雄心，但在许多高负担地区，由于缺乏能够应对气候变异性与疾病发病率之间非线性关系的主动监测工具，进展仍然停滞[6, 7]。
索马里兰就是这一挑战的例证，那里的传播受到半干旱环境条件和社会经济因素的共同影响[8]。虽然Mohamed等人（2022年）的研究提供了该地区历史疟疾趋势和流行情况的宝贵描述性分析[9]，但仍存在一个关键的研究空白：目前还没有经过验证的预测方法能够在疟疾爆发前识别出这些年份。在索马里脆弱且多样的疟疾传播环境中，实施世界卫生组织推荐的干预措施（如间歇性预防治疗）继续面临重大挑战[10]。现有的描述性研究提供了对负担的回顾性观察，但未能提供资源高效预防和控制所需的预测性见解[11]。
历史上，疟疾预测主要由统计时间序列模型主导，如自回归积分移动平均（ARIMA）和广义加性模型（GAM）[11, 12]。尽管这些线性或半线性方法在数据丰富的环境中有效用于建模季节性，但它们往往难以捕捉到像非洲之角这样的半干旱地区特有的突发性、阈值依赖的爆发[13]。相反，先进的机器学习（ML）技术，包括随机森林和深度学习架构（例如长短期记忆网络），通过学习气候驱动因素的高维表示，在其他非洲背景下展示了更高的预测准确性[14]。然而，这些“数据密集型”模型通常需要高分辨率的、多十年的数据集，而在“数据稀缺”地区这些数据集是不可用的[15]。这使得索马里兰的卫生当局缺乏基于气候的早期预警工具。因此，本研究测试了极端梯度提升（XGBoost）的实用性，这是一种集成学习方法，它在深度学习的非线性建模能力和处理小样本结构化表格数据所需的效率之间取得了平衡[16]。
本研究的新颖之处在于测试了在数据稀缺环境中使用集成学习方法（XGBoost）的可行性。我们通过使用一种整合多源数据的机器学习应用，并通过留一法交叉验证（LOYOCV）明确考虑方法学限制（如小样本量N=20）来区分这项工作[17]。此外，为了确保解释的严谨性并证明我们模型的复杂性，我们将这种方法与更简单的基线模型（特别是逻辑回归）进行了比较[18]。通过利用世界卫生组织关于建立流行病阈值的建议[19]并排除二氧化碳浓度等非流行病学变量以防止虚假相关性[20]，本研究为索马里兰从被动监测向主动监测的转变提供了方法学上的概念验证。

2 材料与方法
2.1 研究设计和选择标准
采用了一项回顾性观察性研究设计，使用索马里兰共和国的年度时间序列数据。为了确保统计有效性和最小化插补偏差，研究时间限制在2002-2021年（N=20），代表了完整且经过官方验证的记录窗口。本研究侧重于国家层面，探讨气候和社会人口因素对疟疾发病率的统计特征。由于索马里兰的历史数据情况，之前十年内的季度（月度）记录存在显著的报告空白，因此需要使用年度汇总数据。年度汇总数据提供了最可靠、经过验证的长期序列，用于探索非线性的年际关联，并识别相对于稳定历史基线的“异常”爆发年份的特征。

2.2 数据来源和提取
数据明确从两个主要来源提取：（1）来自索马里兰卫生发展部和世界卫生组织（WHO）全球卫生观察站的年度确认疟疾发病率（每千人病例数）；（2）来自世界银行气候变化知识门户的气候指标（温度和降雨量）。社会人口指标，包括城市人口百分比和土地利用指数，从世界银行开放数据存储库中获取。提取过程包括一个二次验证步骤，将国家卫生报告与国际存储库进行交叉参考，以确保报告负担的一致性。

2.3 变量选择和预处理
根据已建立的与按蚊生命周期和疟原虫寄生虫的生物学联系，选择了预测变量。经过严格的流行病学审查后，二氧化碳浓度被排除作为预测变量，因为它与疟疾传播没有直接的因果关系，并且可能会捕捉到由共同长期时间趋势引起的虚假相关性。同样，由于方差为零，大气压力也被排除在外。最终变量包括：温度、年度降雨量、滞后一年的降雨量、城市化和土地利用。为了保持原始气候数据的物理可解释性，省略了特征缩放；基于树的算法（如XGBoost）对单调变换不敏感，允许模型使用原始单位（例如毫米、摄氏度）。此外，所有20个观测值都保留在最终分析中，以最大化有限的样本量，放弃了K均值法异常值检测，因为当N<30时这种方法在统计上不稳定。

2.4 目标变量转换
为了开发二分类模型，连续的年度疟疾发病率被二分为“爆发”（1）和“非爆发”（0）两类。在对索马里兰不稳定的传播模式进行流行病学审查后，根据世界卫生组织关于定义低至中等传播区流行病特征的指南[19]，使用2000-2017年的基线均值（µ）和标准差（σ）定义了爆发阈值（T）：
$$\:\begin{array}{c}T\:=\:\mu\:+\:\sigma\:\left(1\right)\end{array}$$
应用基线数据后，阈值被修正为每千人116.07例。这一定义确保模型关注相对于区域平均值的异常传播年份，并确定了四个用于训练的流行病事件（2002年、2003年、2004年和2021年）。

2.5 模型验证和比较
为了解决小样本量（N=20）固有的过拟合风险，我们采用了极端梯度提升（XGBoost）算法，并施加了严格的L1（Lasso）和L2（Ridge）正则化。为了解决类别不平衡问题，我们使用了scale pos权重参数。为了确定最佳拟合并证明模型的复杂性，我们将XGBoost与更简单的机器学习基线——逻辑回归进行了比较。所有结果均使用留一法交叉验证（LOYOCV）方案计算。性能评估使用了准确性、AUC-ROC、敏感性和精确度等指标，所有指标均按照编辑委员会的要求格式化为逗号小数形式（例如0.880）。

3 结果
本节详细介绍了研究的实证发现，首先是对研究变量的描述，然后是气候-流行病学相互作用的分析，最后是对预测模型性能的比较评估。

3.1 数据集的特征
用于MIC模型的最终数据集包括20个年度观测值（2002-2021年）。直接回应审稿人对数据完整性的担忧，严格避免了结果变量（疟疾发病率）的插补，只包括了具有完整官方记录的年份。气象和社会人口特征保持在其原始物理单位中。为了防止虚假的时间混淆，完全移除了二氧化碳浓度变量。表1展示了本研究中使用的变量的描述性汇总。

3.2 气候-流行病学相互作用的分析
皮尔逊相关性分析发现滞后一年的降雨量与疟疾发病率之间存在统计学上显著的中等正相关（r=0.510；p=0.013）。相反，城市人口百分比显示出强烈的负相关（r=-0.720；p<0.001）。然而，我们承认这些相关结果并未考虑时间序列属性，仅作为对变量关联的探索性见解进行解释。城市化与疟疾之间的联系被描述为一种虚假的共趋势，反映了研究期间疟疾负担的下降和区域发展的稳步上升，而不是直接的保护因素。

3.3 爆发阈值和目标变量转换
为了开发二分类模型，连续的年度疟疾发病率被二分为“爆发”（1）和“非爆发”（0）两类。在对该地区不稳定的低至中等传播模式进行流行病学审查后，根据世界卫生组织的指南[19]，使用基线均值（µ）和标准差（σ）定义了爆发阈值（T）：
$$\:\begin{array}{c}T\:=\:\mu\:+\:\sigma\:\left(1\right)\end{array}$$
应用基线数据（2000-2017年），阈值计算为：
$$\:\begin{array}{c}\text{78,96}\:+\:\left(1\:\times\:\text{37,11}\right)=\:\text{116,07}\:\left(2\right)\end{array}$$
每千人超过116.07例的年份被分类为“爆发”年份。这确定了四个流行病事件（2002年、2003年、2004年和2021年）。为了确保这一定义不是任意的，我们通过将阈值改为均值+1.5SD（6个爆发年份）和第75百分位数（5个爆发年份）进行了敏感性分析。分析显示，尽管AUC略有波动（0.865至0.880），但滞后一年的降雨量作为主要预测变量的重要性在所有阈值下保持稳定。这种一致性证明了均值+1SD作为识别索马里兰高影响传播峰值的稳健操作阈值是合理的。

3.4 极端观测值的稳健性和影响
进行了稳健性分析，以评估21世纪初高发病率年份的影响，特别是2003年的爆发高峰。使用完整的N=20数据集重新运行模型后，得到了交叉验证的AUC为0.880。当这个极端年份被用作敏感性测试时，AUC变化不大（0.872），并且滞后一年的降雨量作为主要预测变量的排名保持不变。这表明模型的性能是由潜在的气候特征驱动的，而不是由单个异常值造成的，因此有理由在不进行手动删除的情况下包含整个历史序列。3.5 模型评估和性能比较我们比较了极端梯度提升（XGBoost）算法和逻辑回归（LR）基线，以确定最适合数据的模型并证明模型复杂性的合理性。XGBoost的超参数调整使用了网格搜索方法；最佳配置包括学习率（eta）为0.3、200轮提升以及严格的L2正则化（λ=1），以降低过拟合风险，详见表2。表2 性能评估和模型比较（LOYOCV结果）完整表格XGBoost在AUC上比基线提高了17.0%。ROC曲线的明显“阶梯状”外观（图1）是离散数据集N=20的直接结果，表明高性能应谨慎解读为初步的概念验证。图1 这张图片的替代文本可能是使用AI生成的。完整尺寸图片ROC曲线确认XGBoost（AUC 0.880）提供了比随机机会更强的预测能力。然而，曲线的阶梯状外观是离散数据集N=20的直接结果，表明性能应被视为初步的概念验证，可能存在过拟合的风险。3.6 特征重要性分析特征的重要性是使用增益指标得出的。图2可视化了这些预测因子的排名。表3中的分析确定1年滞后降雨量是主要的预测特征。与评审员的建议一致，城市化的高排名被解释为社会经济发展的代理指标，而不是直接的生物驱动因素。表3 相对特征重要性（增益）完整表格图2 这张图片的替代文本可能是使用AI生成的。完整尺寸图片1年滞后降雨量（40.2%）和城市化百分比（19.8%）是最有影响力的预测因子。与评审员的建议一致，城市化的重要性被解释为社会经济发展的代理指标，而不是直接的生物驱动因素。4 讨论MIC模型在识别索马里兰历史疟疾爆发特征方面达到了初步的AUC 0.880。虽然这显著优于线性基线（AUC 0.710），但由于数据集N=20的方法学限制，这些发现必须谨慎解读。本研究的主要担忧是将复杂的集成算法（如XGBoost）应用于极小样本量时固有的过拟合风险。尽管使用了留一法交叉验证（LOYOCV）和严格的正则化，模型可能只是记住了特定的历史年份，而不是识别出普遍的流行病学驱动因素。因此，这些发现缺乏广泛的外部有效性，仅代表预测能力的初步乐观上限。该模型为数据稀缺地区建立了方法论基础，但需要使用更高分辨率的时间数据进行广泛的前瞻性验证。我们强调，特征重要性得分反映了该特定模型内的预测效用，并不构成因果生物学影响的证据。例如，1年滞后降雨量（40.2%）的高排名是一个统计上显著的关联特征，与已建立的生态流行病学研究[2, 5]一致。同样，城市化被解释为一种虚假的共趋势或代理变量，反映了医疗基础设施和住房质量的广泛改善，而不是传播的直接保护因素。数据集显示出显著的时间偏差，因为75%的爆发年份（2002-2004年）集中在时间序列的开始阶段。这种聚集表明，模型的决策边界受到该历史时期特定气候和社会政治条件的严重影响。此外，我们认识到，仅基于四个阳性病例（n=4）得出的模型估计本质上是不稳定的；因此，报告的特征排名代表了该特定回顾性模型内的数学增益，需要使用现代数据进行前瞻性验证以确认其普遍性。虽然Mohamed等人（2022年）为该地区提供了基本的描述性趋势[9]，但本研究通过测试预测机器学习方法来提供主动公共卫生动员所需的时间提前量，从而区别于其他研究。为了确保科学严谨性，分析中完全排除了二氧化碳浓度，因为其在早期试验中的明显预测能力被确定为由于全球线性趋势而产生的虚假相关性。通过将模型限制在直接的生态驱动因素上，我们为未来的监测建立了生物学上合理的基础。未来的研究应该探索时间序列架构，如ARIMA或LSTM网络，一旦每月一次的区级数据可用。我们认识到，年度聚合是一个重要的限制，它掩盖了季节性动态；虽然当前方法提供了战略性的国家级早期预警，但战术性爆发检测需要通过更细粒度的数据来捕捉短期滞后结构。为了具有操作相关性，该模型作为主动资源分配的初步早期预警触发器。通过提前6-12个月（通过1年滞后）识别高风险特征，索马里兰的卫生当局可以开始预先部署医疗物资，如青蒿素联合疗法（ACTs）和快速诊断测试（RDTs），并在传播高峰之前启动室内残留喷洒（IRS）活动。虽然这项研究直接推进了可持续发展目标3.3（结束疟疾流行），但它严格来说只是一种初步的机器学习方法，需要进一步验证。5 结论这项研究提供了初步证据，表明基于XGBoost的机器学习方法可以成功识别索马里兰的历史疟疾爆发特征。虽然获得的AUC 0.880表明了强大的预测潜力，但这些结果受到非常小的年度数据集（N=20）的固有限制和过拟合风险的影响。因此，这些发现应被视为方法论上的概念验证，而不是决定性的或操作性的监测工具。模型依赖于1年滞后降雨量，这与已建立的生态流行病学原理一致，然而特征重要性的不稳定性和时间偏差——由于爆发在时间序列早期的聚集——需要进一步的前瞻性验证。在这个阶段，我们避免做出明确的政策声明，因为索马里兰实际实施的可行性仍需通过更细致的区级分析来证明。最终，这项研究为数据稀缺地区的气候信息疟疾监测奠定了初步基础。未来的研究必须优先获取高分辨率的时间数据，以从这种回顾性分析过渡到功能性的、前瞻性的早期预警系统。这样的进步对于超越探索性关联并提供支持非洲之角可持续发展目标3.3所需的可靠证据至关重要。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部