本研究的数据来源包括埃塞俄比亚公共卫生研究所、公共卫生应急管理、卫生部、吉马气象办公室及吉马地区卫生办公室2014年至2020年的回顾性数据,覆盖西南部五个区的38个 districts,涵盖病例数、气象因素(温度、降水)、地理空间信息(海拔、经纬度)及卫生基础设施数据。主要技术方法包括:(1)空间分析与可视化:运用地理信息系统(Geographic Information Systems, GIS)工具(QGIS、GeoPandas、Matplotlib、SciPy 等),通过样条插值将 district 级病例数据转化为连续分布图,识别地理热点及疟疾与环境特征(河流、海拔、气候带)的共现关系;(2)时间序列分析:采用长短期记忆网络(LSTM)深度学习模型,该模型包含两层堆叠 LSTM(60单元和120单元)、Dropout 正则化层(rate=0.3)及稠密输出层,使用 Adam 优化器(学习率0.001)和均方误差损失函数,通过12个月滑动窗口构建序列,经数据增强(引入高斯噪声和缩放变化)后模型性能显著提升;(3)统计预测模型:采用带外生变量的季节性自回归积分滑动平均模型(SARIMAX),参数设为 (p,d,q)=(1,1,1)、季节性参数 (P,D,Q,m)=(1,1,1,12),以温度、降水、海拔和卫生设施为外生变量,通过自相关函数(ACF)和偏自相关函数(PACF)指导参数选择,并以此作为可解释的基准模型与 LSTM 进行对比。数据预处理阶段采用四分位距法(IQR)处理异常值,对缺失值进行线性插补;LSTM 输入变量采用 Min-Max 归一化,SARIMAX 则进行 Box-Cox 变换和一阶差分处理后通过 ADF 检验确认平稳性。
研究结果
3.1 空间分析
通过空间分析揭示了2014年至2020年西南部地区明确的时空模式。2014年至2016年期间,西部 Jimma 地区(靠近 Didessa 河)及东部 Jimma 地区(Sekoru、Omo Nada 等地)、Dawro 地区(Loma、Tercha、Isra 等地)持续存在热点,这些区域均邻近 Gibe 河、Omo 河及 Koysha 大坝,具有低海拔(500–1500米)和温暖气温(20–35°C)的特征,为按蚊繁殖和疟原虫发育提供了理想条件。2017年后出现热点地理转移:西部 Jimma 病例下降,而 Bench Maji 和 Kefa 地区显著上升,Bench Maji 于2019年达到最高负担。值得注意的是,Bench Maji 并非邻河地区,但其低海拔、持续温暖气温及有限的卫生基础设施可能导致疫情发现和响应延迟。此类模式与埃塞俄比亚双峰传播特征一致,即雨季高峰后2–3个月出现发病高峰。
3.2 时间序列分析与建模结果
时间序列分析确认了五区的空间趋势并揭示时间动态:Jimma 地区2014年负担最重(>3000例),2015年全区下降后,2017年和2019年出现 resurgence 峰值;Dawro 地区2017–2019年显著升高,与 Omo 河附近持续传播相关;Bench Maji 地区2017年后持续不间断上升,2019年达峰,为全区独特模式,可能由低海拔温暖气候和有限医疗可及性共同驱动;Kefa 地区周期性增加但2020年总体下降;Jimma Special Town 始终最低,反映城市基础设施和高海拔的保护作用。降雨高峰后2–3个月的一致滞后证实了雨后蚊虫繁殖对传播的影响。模型性能方面,LSTM 模型经数据增强后 R2达0.98,MSE 降至73.8;SARIMAX 模型 R2为0.68,MSE 为1517,残差诊断显示基本独立但存在轻度非正态性和重尾特征,表明在捕捉突然暴发方面存在局限。