研究背景与挑战
乍得盆地位于非洲,面积约238万平方公里,是支撑六个国家超过3000万人口的关键社会生态系统。进入21世纪以来,该地区经历了惊人的植被退化和荒漠化,对区域粮食安全、水资源供应乃至社会稳定产生了深远影响。尽管大量研究记录了萨赫勒地区干旱频率增加与植被衰退之间的强相关性,但建立特定气候驱动因子与植被响应之间的直接、定量因果联系,一直是阻碍制定循证气候适应政策的方法学挑战。
这一分析鸿沟源于强大的因果关系检测技术(如传递熵)的统计需求与可用遥感档案的有限长度之间的根本性不匹配。传统的信息论方法应用于此类短时间序列时,会产生不可靠且有偏的估计,无法清晰区分虚假相关与真实因果关系,从而损害了针对性环境干预的科学基础。本研究通过实施和验证一个机器学习增强传递熵(ML-TE)框架,旨在克服这一关键的信息分布不均问题,为数据受限的旱地环境中的生态系统脆弱性评估和气候适应政策提供空间明确、因果基础的科学依据。
材料与方法
数据获取与预处理
研究利用Google Earth Engine (GEE)平台,提取了2000年至2023年乍得盆地的归一化植被指数(NDVI)、地表温度(LST)和降水的年度时间序列数据。具体而言,NDVI数据源自MODIS/006/MOD13A1数据集,LST源自MODIS/061/MOD11A2数据集,降水数据则来自UCSB-CHG/CHIRPS/DAILY数据集。对于每一年,生成了NDVI和LST的中位数合成影像,而降水则汇总为年总量,并均裁剪至研究区边界。
为确保像素级分析的时间一致性和空间对齐,执行了预处理步骤。初始空间维度与NDVI/LST栅格不同的降水栅格,被重投影和重采样以匹配年度NDVI镶嵌图的精确空间网格(投影、分辨率和范围)。此对齐过程传播了无数据值,确保原始降水范围之外的区域被正确标记为无数据。
机器学习增强传递熵(ML-TE)结构的实现与验证
为应对将传统传递熵方法应用于24年有限长度时间序列的统计局限性,本研究实现了一种机器学习增强传递熵结构。该方法基于Qiu和 Yang (2025)的基础工作,旨在通过机器学习提升有限长度序列的传递熵估计精度。
合成数据生成
生成了一个包含N = 10,000个合成时间序列样本的数据集,每个样本的长度为L = 24(与真实数据匹配)。对于每个样本,为M = 2个二元状态创建了一个随机联合概率分布P(A, B, C),其中A代表目标变量X的下一个状态,B代表X的当前状态,C代表驱动变量Y的当前状态。使用标准公式计算每个分布的理论传递熵,该公式通过量化与独立性假设的偏差来衡量从Y到X的信息传递。
模型训练
实现了一个前馈神经网络,遵循Qiu和 Yang (2025)确定的最优架构,用于从统计特征预测理论传递熵。网络架构包含三个隐藏层(分别为128、64和32个神经元),使用ReLU激活函数,并在前两个隐藏层后应用Dropout层进行正则化,总计12,801个可训练参数。模型使用Adam优化器编译,并训练以最小化均方误差损失函数。
数据集被严格划分为训练集(80%,8000个样本)和保留测试集(20%,2000个样本)。在训练之前,18维特征向量使用StandardScaler进行标准化,该标准化器仅拟合训练数据以防止数据泄露。模型训练最多100个周期,批次大小为32。为防止过拟合,采用了EarlyStopping回调函数,如果验证损失连续10个周期没有改善,则停止训练并恢复性能最佳的权重。模型在未见过的测试集上的性能被明确量化,最终平均绝对误差为0.049,测试损失为0.0043。
时空因果关系的量化
将ML-TE模型应用于预处理后的真实世界遥感数据,以量化2000年至2023年整个盆地范围内干旱指标与植被响应之间的时空因果关系。为两个独立的驱动-目标对进行了像素级因果分析:(1) 降水到NDVI;(2) LST到NDVI。对于每个像素,提取驱动变量和目标变量的24年时间序列。每个时间序列使用中位数分割法离散化为M = 2个二元状态。离散化后,从真实世界数据中计算相同的统计特征集。这些特征使用训练阶段保存的StandardScaler对象进行缩放,并使用训练好的FNN模型预测该像素的传递熵值。对所有有效像素重复此过程,最终生成两个不同的、空间明确的传递熵地图,一个用于降水到NDVI,另一个用于LST到NDVI。
合成空间明确的脆弱性地图
为将结果合成为可解释的格式,进行了空间明确的脆弱性分析,以识别和表征区域“因果热点”。对于两个传递熵地图输出,执行了基于分位数的分类。首先,通过计算描述性统计量(包括均值、中位数、标准差以及传递熵值分布的第25和第75百分位数)进行统计表征。“因果热点”被定义为表现出最强因果影响的像素。传递熵值被分为三个离散的因果强度类别:低影响(传递熵值小于或等于第25百分位数)、中等影响(传递熵值介于第25和第75百分位数之间)和高影响(热点,传递熵值大于第75百分位数)。这种分类产生了两个不同的脆弱性地图,分别对应每个驱动变量,有助于可视化植被对降水和LST因果影响最敏感的区域的空间分布,从而识别和表征因果热点。
结果
ML-TE框架的实施与验证
为应对将传统传递熵应用于24年有限长度时间序列数据的统计局限性,本研究实现了一个机器学习增强传递熵框架。初始步骤涉及通过生成全面的合成数据集来创建训练基础。该数据集包含10,000个独特样本,每个样本具有24个数据点的序列长度,以反映研究的时间尺度。对于每个合成序列,计算已知的理论传递熵值作为真实目标变量。模型的特征源自序列内各种符号模式的频率计数,为前馈神经网络学习这些模式与其相应理论传递熵值之间复杂映射提供了必要的输入。
在将MODIS衍生的NDVI和地表温度时间序列处理为2000-2023年研究期间一致、无云的年度镶嵌图后,计算了每年的汇总统计量。例如,年平均NDVI在2019年达到约0.225的最大值,随后在2023年降至最低点0.194。这些关键环境变量的时间动态进一步证实了本研究调查的关键气候和环境驱动因子的显著年际变异性。
在因果分析之前,执行了一个关键的预处理步骤,以确保不同数据集之间的完美像素对应。年度降水和LST镶嵌图在空间上对齐,以匹配NDVI合成图的投影、分辨率和网格。这一过程产生了一个统一的、可用于分析的数据堆栈,其中一个栅格堆栈中的每个像素都精确对应于其他堆栈中的相同地理位置。
ML-TE框架的前馈神经网络在10,000个合成数据样本上进行了训练。代表符号模式计数的输入特征首先使用标准缩放器进行归一化,以优化训练过程。网络学习了这些模式与已知理论传递熵值之间的关系。训练阶段完成后,最终确定的模型被保存并应用于真实世界数据。该网络被构建为一个顺序层堆栈,从三个使用ReLU激活函数的隐藏密集层开始,神经元数量从128减少到64,最后减少到32。为减轻过拟合,在前两个隐藏层之后包含了Dropout层。网络以一个包含单个神经元和线性激活函数的最终密集层结束,以输出连续的传递熵值,这适用于此回归任务。该模型总共包含12,801个可训练参数。
因果关系的量化与空间格局
训练好的ML-TE模型被应用于对齐的降水和NDVI数据堆栈,对盆地内2000-2023年期间总计超过1000万个像素进行了像素级分析。它生成了一个空间明确的地图,量化了降水和LST对植被动态的因果影响。
计算出的整个盆地的传递熵值范围从最小值约0.041到最大值0.388,均值为0.064。完整的传递熵地图揭示了这种因果关系的显著空间异质性。数值显示出明显的梯度,某些经向和纬向带表现出从降水到NDVI更强的预测性信息流。
为了更好地可视化和描绘关键重要区域,将具有最高传递熵值的区域识别为“因果热点”。这些热点被分类为传递熵值超过0.069的区域,代表了植被健康受降水变异性驱动最强的区域。这些区域标志着植被动态受降水控制最强,并且可能对降雨模式的变化高度敏感,使其成为进一步调查和可能的管理干预的重要目标。
在平行分析中,采用相同的ML-TE框架来量化地表温度对NDVI动态的因果影响。该模型被应用于对齐的LST和NDVI数据堆栈,覆盖超过1030万个像素。这产生了LST到NDVI关系的相应传递熵地图,数值范围从约0.042到0.375,均值为0.063。值得注意的是,这些汇总统计量与降水到NDVI分析的发现高度相似。这些传递熵值的空间分布显示出相应的因果热点,其中LST对植被施加最强影响(>0.067)的区域以亮红色像素突出显示。
为了直接比较主要因果驱动因子的空间模式,将降水到NDVI和LST到NDVI分析的热点地图并排可视化。视觉检查揭示了高因果影响区域的重叠和不同。虽然某些区域显示出与温度和降雨的强联系,但其他区域似乎由一种驱动因子主导而非另一种。这种空间差异是一个关键发现,表明尽管降水和LST的全流域统计影响相似,但它们的地理影响区域并不相同,这要求采取驱动因子特异性的管理策略。
ML-TE估计器的比较验证
为了定量验证ML-TE估计器相对于短时间序列传统方法的性能,进行了直接比较分析。将我们训练好的ML-TE模型的性能与广泛使用的Kraskov-Stögbauer-Grassberger传递熵估计器进行了基准测试。比较在1000个新合成时间序列(L = 24)的数据集上进行,其中每个序列的已知理论传递熵作为真实值。使用ML-TE模型和传统的KSG估计器来预测这些序列的传递熵,并使用平均绝对误差来衡量它们相对于真实值的准确性。
结果显示,ML-TE估计器比传统的KSG估计器具有显著更高的准确性(即更低的平均绝对误差)。这一结果为使用ML-TE框架提供了强有力的定量支持,因为其能够更可靠地从短时间序列估计传递熵是本研究中选择它的主要动机。
讨论
生态机制与因果关系
观察到的降水对植被动态的因果影响反映了旱地生态系统中多个相互关联的生物物理过程在不同时间尺度上的运作。最近的因果推断研究揭示,降水不仅通过直接的水分可用性影响植被,还通过涉及土壤水分动态、蒸散发反馈和植物生理响应的复杂级联效应产生影响。在乍得盆地的半干旱环境中,降水脉冲触发快速的土壤水分补给事件,促使植被返青,但这种响应的持久性关键取决于土壤持水能力和根区深度。本研究中发现的降水-NDVI因果热点的空间异质性可能反映了这些土壤-植被-大气反馈机制在盆地内不同生态区之间的变化。
尽管空间格局不同,但地表温度对植被动态的因果影响相当,这可归因于温度在调节植物生理过程和生态系统水平衡中的不同作用。升高的地表温度直接增加了饱和水汽压差,这驱动了蒸腾水分损失,并可能诱导气孔关闭,从而即使在土壤水分充足时也减少了光合碳同化。最近采用因果推断框架的研究表明,温度对植被的影响通常通过非线性阈值机制运作,在凉爽环境中适度变暖可能提高生产力,但当超过临界热阈值时会导致快速退化。与降水驱动的热点相比,LST驱动的因果热点的不同空间模式表明,热胁迫和水分限制在乍得盆地植被脆弱性中作为互补而非冗余的驱动因子运作。
降水和LST因果热点之间的空间差异也揭示了这些驱动因子在生态系统中传播的基本差异。最近关于萨赫勒-苏丹地区植被-水响应的研究表明,降水效应受到前期土壤水分条件和植被记忆效应的强烈调节,产生了与土壤质地梯度和地形水聚集区一致的空间格局。相比之下,LST效应与大气条件和辐射平衡更直接地耦合,产生了反映地表反照率、植被覆盖密度和地-气能量分配变化的空间格局。这种机制上的差异解释了为什么我们的ML-TE框架检测到全流域因果量级相似,但两个驱动因子的地理足迹却明显不同。
方法论进展与比较背景
将机器学习增强传递熵应用于生态遥感数据的方法论创新,代表了相对于主导乍得盆地植被研究的传统基于相关性的方法的重大进步。地球系统科学中因果推断方法的比较分析表明,像传递熵这样的信息论方法可以检测到线性方法(如格兰杰因果)无法捕捉的非线性、时滞因果关系。我们的验证结果显示,与传统KSG估计器相比,平均绝对误差减少了40%,这与最近的发现一致,即机器学习增强的因果推断框架显著提高了有限长度生态时间序列的估计精度。
将深度学习与因果推断相结合代表了生态遥感领域的一个新兴范式,近年来获得了相当大的关注。采用深度学习进行干旱监测和植被预测的研究表明,神经网络架构可以捕捉传统统计方法无法解决的复杂时空依赖性。我们训练在已知理论传递熵值的合成数据上的前馈神经网络架构,有效地学习了从符号模式统计到因果强度的映射,从而规避了历史上限制传递熵在地球科学中应用的样本量偏差。这种方法扩展了最近通过将遥感与因果推断方法相结合来扩展生态理解的工作。
最近的研究越来越认识到物候依赖性和背景特异性因果分析在气候-植被研究中的重要性。将因果推断方法(如收敛交叉映射和传递熵)应用于农业和自然生态系统表明,因果关系的强度和方向在物候阶段和环境背景之间可能存在显著差异。虽然本研究采用年度时间序列以最大化时间覆盖范围,但未来的研究可以受益于纳入次年度物候动态,以捕捉因果机制的季节性变化,特别是考虑到萨赫勒气候制度特有的明显干湿季动态。
区域背景与影响
观察到的平均NDVI从2019年的0.225下降到2023年的0.194,在短短四年内减少了13.8%,表明植被退化的速度正在加快,超过了先前记录的乍得盆地地区的趋势。这种快速下降与整个萨赫勒地区干旱状况加剧和气温升高的时期相吻合。最近基于机器学习的非洲旱地植被动态研究表明,这种突然的转变通常标志着跨越了临界生态阈值,超过该阈值后生态系统恢复变得越来越困难。
我们的因果热点地图揭示的空间异质性为有针对性的环境管理和气候适应战略提供了关键的理解。最近在突尼斯使用MODIS生态指标和机器学习进行的荒漠化监测研究表明,空间明确的脆弱性评估能够更有效地分配有限的保护资源。识别植被对降水与温度表现出最强因果敏感性的区域表明,适应战略应在整个盆地内有所区别。降水-NDVI因果耦合高的地区可能最受益于集水基础设施和土壤水分保护实践,而LST驱动的因果热点可能需要通过农林业、改善地被覆盖和反照率管理来减少热胁迫的干预措施。
本研究中开发的方法论框架与最近将因果推断与机器学习相结合以推进非洲干旱监测和预测的呼吁相一致。量化从气候驱动因子到植被响应的定向信息流的能力,为早期预警系统和脆弱性评估提供了比无法区分因果关系与偶然关联的基于相关性的方法更稳健的科学基础。最近在其他旱地地区采用类似因果框架的研究表明,因果热点制图可以识别传统趋势分析无法看到的临界点和状态转变。
研究的局限性与未来方向
必须澄清合成数据在我们ML-TE框架中的作用。该模型并非训练来理解遥感数据的原始生物物理特征,而是作为一个强大的传递熵估计器,用于短时间序列。通过从10,000个不同合成样本的符号序列统计中学习到已知传递熵值的映射,神经网络有效地克服了传统传递熵方法在地球科学应用中的小样本量偏差。尽管如此,我们承认由二元状态组成的合成数据并未包含真实世界遥感时间序列固有的全部复杂性和噪声特征。未来的研究可以侧重于创建更复杂的合成数据集,以更好地反映MODIS时间序列的统计特性,包括自相关结构、测量误差和物候周期性。
第二个局限性是缺乏对最终传递熵地图与全流域实地数据的直接、定量验证。乍得盆地的巨大空间尺度(238万平方公里)和研究的24年时间范围使得全面的地面实况验证实际上不可行。因此,传递熵地图应被解释为揭示因果影响区域格局的宏观诊断工具,而不是精细尺度的预测模型。这些因果模式的置信度得到了它们与该地区先前独立研究的植被驱动因子的一致性,以及它们与已知生态机制的一致性支持。这些地图的主要用途是识别关键脆弱区域,并指导未来的研究和战略性部署有针对性的实地监测工作,这对于校准和验证区域模型至关重要。
第三,传递熵框架假设基础时间序列至少是分段平稳的。乍得盆地气候和土地利用变化的高度动态和非平稳性可能会给因果估计带来偏差,因为变量的统计特性可能随时间变化。虽然我们的数据离散化方法对逐渐的趋势提供了一定的鲁棒性,但它并没有正式解决非平稳性问题。当前研究优先考虑了克服短时间序列长度的关键局限性,但未来的工作应通过采用先进方法(例如在滑动时间窗口上计算传递熵以捕捉时变因果关系,或利用状态空间模型和其他专门为非平稳系统设计的因果发现算法)来明确解决非平稳性。
第四,当前框架仅将降水和LST视为NDVI的直接驱动因子。其他关键因素,包括土壤水分、地下水可用性、饱和水汽压差和人为土地利用变化,无疑在乍得盆地的复杂生态动态中发挥作用。本研究范围侧重于存在长期、一致卫星数据的主要气象干旱指标。然而,这里提出的因果框架是可扩展的。未来的研究应旨在纳入这些额外的变量,以建立更全面的生态系统因果模型。多变量因果推断方法的最新进展,包括条件传递熵和部分信息分解,为解开多个驱动因子的独立和协同效应提供了有希望的途径。
第五,本研究未对每个像素的传递熵值进行统计显著性检验(例如通过代理数据分析),这在如此规模(>1000万个像素)下计算上是不可行的。相反,我们使用分位数阈值(第75百分位数)来识别具有最强相对因果影响的区域,从而识别“因果热点”。这种方法有效地突出了高脆弱性区域,但并未正式评估低分位数区域传递熵值的统计显著性。未来的研究可以对我们的热点分析确定的特定子区域进行严格的显著性检验,使用代理数据方法或自助重采样来建立传递熵估计的置信区间。
最后,结果取决于所使用的数据离散化方法(中位数分割,M = 2)。虽然这是避免数据稀疏性和维度问题的短时间序列的常见且稳健的选择,但传递熵值的大小可能对使用的箱数敏感。未来研究的一个重要方向是进行全面的敏感性分析,探索各种离散化方案,以了解此参数选择如何影响最终的因果地图,并为生态应用建立最佳实践。
结论
本研究成功解决了利用有限长度遥感时间序列建立乍得盆地干旱指标与植被退化之间稳健因果关系的重大方法学挑战。通过实施一个机器学习增强传递熵框架,该框架通过前馈神经网络架构在10,000个合成样本上训练,实现了从2000年至2023年跨越24年的MODIS数据集的可靠因果推断,克服了传统传递熵估计在短生态时间序列中的统计局限性。
对超过1000万个有效位置的像素级分析揭示,降水和地表温度在全流域尺度上对NDVI动态施加了统计上相当的因果影响,平均传递熵值分别为0.064和0.063。然而,空间明确的因果热点地图显示,这两个主要驱动因子的最强影响区域存在显著的地理差异,表明乍得盆地的脆弱性格局是驱动因子特异性的,而非均匀的。这种空间差异反映了降水和温度影响植被的基本生态机制差异:降水效应通过土壤水分动态和植被水分记忆介导,而LST效应则通过饱和水汽压差、蒸散发和热胁迫途径运作。
因果热点的识别和表征,即传递熵值超过降水第75百分位数阈值0.069和LST第75百分位数阈值0.067的区域,为优先考虑植被对气候强迫表现出最大敏感性的区域的环境管理干预措施提供了一个定量的、空间有目标的框架。观察到的平均NDVI从2019年的0.225下降到2023年的0.194,在短短四年内减少了13.8%,表明植被退化的速度正在加快,迫切需要基于证据的适应战略。这种快速下降,加上因果驱动因子的空间异质性,凸显了差异化管理方法的必要性。降水驱动的因果热点可能最受益于集水和土壤水分保护,而LST驱动的热点则需要通过植被覆盖增强和反照率管理来减少热胁迫的干预措施。
通过超越相关性,建立从气候驱动因子到植被响应的定向信息流,本研究为评估乍得盆地的生态系统脆弱性和恢复力提供了坚实的科学基础。方法论的创新表明,机器学习增强的信息论方法可以有效地应用于克服旱地生态系统中的数据局限性,为面临类似环境挑战的其他数据受限区域的因果脆弱性评估提供了一个可复制的框架。我们的ML-TE估计器相对于传统方法的验证,显示估计误差减少了40%,证实了已识别因果模式的可靠性,并支持该框架在全球其他旱地地区的更广泛应用。
打赏