一、研究背景
理解动物的空间利用与物理环境之间的关系,在生态研究和物种保护中至关重要。生物遥测设备收集的动物运动数据,能为研究动物空间利用提供有价值的信息。统计模型常被用于将动物运动数据与资源、能量、捕食风险等环境指标相联系,帮助我们深入了解动物的家域、栖息地选择、运动廊道、行为和关键栖息地等生态概念。
在物种保护方面,许多国家通过法律手段,如澳大利亚的《环境保护和生物多样性保护法》、加拿大的《物种濒危法》、英国的《野生动物和乡村法》以及美国的《濒危物种法》,将识别和指定关键栖息地作为保护物种免受栖息地退化和气候变化影响的主要方式。因此,正确选择、应用和解释基于动物运动数据识别关键栖息地的统计模型至关重要。
目前有多种模型可用于将动物运动数据与环境协变量相联系,但不同模型适用于特定的研究问题。这些模型有的关注大尺度的物种重要区域问题,有的则聚焦于小尺度的运动或行为相关问题。选择合适的模型是运动建模中复杂且具有挑战性的任务,需要综合考虑研究问题的尺度、动物行为以及数据特点等因素。
二、统计模型介绍
(一)资源选择函数(RSF)
资源选择函数(RSF)是一种广泛应用的函数,用于描述栖息地特征与动物使用该栖息地相对概率之间的关系。它假设动物选择的环境条件能提供理想资源,栖息地选择概率是代表景观上资源分布的预测变量的函数。如今,RSF 常被称为栖息地选择函数,因其可纳入除资源外的其他协变量,如捕食者概率。
在处理运动数据时,RSF 通常将动物的观测位置(代表动物使用的栖息地样本)与在动物家域(如观测位置的最小凸多边形 MCP 内)随机选择的位置进行比较。观测位置被称为 “使用位置”,随机背景位置则被称为 “可用位置”。RSF 应用广泛,原因在于其使用方便,借助 R 语言的 amt 包即可实现,还能提供物种 - 栖息地关系的大尺度信息。
RSF 的表达式 w(x)=exp(β1x1+β2x2+⋯+βkxk) ,其中 x={x1,...,xk} 表示 k 个预测栖息地变量的值,β1,...,βk 是相关的选择系数。实际应用中,RSF 的系数通常通过逻辑回归进行估计。RSF 可在环境空间或地理空间中表示,在地理空间中可写成非齐次泊松点过程(IPP),两者在建模与环境协变量关系的方式上存在差异。
RSF 的独立性和大尺度可用性假设,使其特别适合分析粗略的动物运动数据,以了解动物的大尺度空间生态学,例如识别广泛的保护走廊和高野生动物密度区域等。然而,当应用于运动数据时,简单 RSF 最适合在粗略时间分辨率下收集的数据。运动数据中的自相关可能导致标准误差估计偏低,增加第一类错误率,尤其在使用高分辨率数据集时更为明显。针对这一问题,有数据 thinning、加权点、校正标准误差和添加自相关项等多种解决方法。
(二)步选择函数(SSF)
步选择函数(SSF)基于 RSF 发展而来,它在动物的每个观测顺序位置或步(即两个连续位置之间的线性段)上,结合栖息地协变量和运动约束来估计动物的资源选择,一定程度上解决了 RSF 存在的自相关问题。与 RSF 假设整个家域在研究期间都可被动物利用不同,SSF 假设动物在一步的时间尺度内只能访问其先前位置附近的有限区域。
本文重点介绍的集成 SSF,允许环境协变量不仅影响动物的选择,还影响其运动本身。这种 SSF 将运动特征(包括步长和转弯角度)和环境协变量结合在一个线性预测器中,实现了运动和环境之间的联合估计及潜在交互作用,放松了观测到的运动属性(如速度和方向持续性)与资源选择相互独立的假设。
SSF 通过定义使用分布为栖息地选择 w 和无选择运动核 ϕ 的乘积来同时估计栖息地选择和运动核。运动核描述了动物在没有栖息地选择时的运动方式,其参数通常通过拟合条件逻辑回归或蒙特卡罗积分技术进行估计。在估计 SSF 系数时,通常在每个时间点 t 绘制 m 个控制点,这些控制点用于估计高分辨率下靠近动物最后位置的可用性,但容易被误解为仅代表可用的运动选项。
SSF 适用于精细尺度的运动数据集,可用于研究环境协变量如何影响动物运动特征,如道路对步长的影响、捕食者或社交网络对动物运动的影响,以及温度变化对动物运动和热覆盖利用的影响等。
(三)隐马尔可夫模型(HMM)
在运动生态学领域,隐马尔可夫模型(HMM)主要用于将动物运动分类为有限数量的离散行为状态,如搜索、休息、旅行等,与 RSF 和 SSF 在概念上有所不同,它通常不直接推断栖息地选择,但可用于研究环境协变量与动物运动和行为之间的关系。
HMM 假设存在一个随时间展开的隐藏状态过程,我们通过这个过程获得观测数据。即动物在任何时刻都处于 N 个离散且时间自相关的状态 Zt∈{1,2,...,N} 之一,这些状态代表隐藏的未观测行为,与观测时间序列 (Y1,...,YT) 相关。在动物运动 HMM 中,观测数据通常是步长和转弯角度的时间序列,还可能包括潜水深度或加速度等其他数据流。
对于一个 N 状态的 HMM,状态转移概率矩阵 Γ 是一个 N×N 矩阵,其中元素 (i,j) 表示从状态 i 转移到状态 j 的概率 γi,j=Pr(Zt+1=j∣Zt=i) ,且每行元素之和为 1。所有观测值在基于潜在隐藏状态过程进行条件设定后,被假设为相互独立。HMM 的似然函数可通过数值方法或期望最大化(EM)算法进行参数估计。
环境协变量可通过两种方式纳入 HMM。一是改变状态转移概率,如研究植被密度对食草动物进入觅食状态概率的影响;二是改变观测概率密度函数,如研究雪深对动物在特定状态下运动速度的影响。HMM 属于状态空间模型的一种,其状态是离散的,相较于其他将动物运动行为描述为连续体的状态空间模型,HMM 更易于解释,因为每个状态都有明确的转弯角度和步长分布。它适用于高频运动数据集和行为特定的研究问题,能够识别与不同行为相关的栖息地特征。
三、模型选择
RSF 适合解决关于物种重要区域的大尺度问题,如在物种或家域尺度上的一阶或二阶选择;而 SSF 和 HMM 通常更适合解决较小尺度的运动或行为特定问题,如在栖息地使用或实际食物摄入尺度上的三阶或四阶选择。
RSF 通过在观测数据的家域(MCP)内生成可用性样本,其预测系数提供的是大尺度信息;SSF 利用运动核将模型限制在步的尺度,能在较小尺度上提供见解;HMM 则将运动分类为离散行为状态,不把栖息地协变量视为栖息地选择的驱动因素,而是与估计的行为状态相关联。选择合适的模型并非易事,且选择合适的模型也不能保证推断准确。在实际应用中,需要充分了解所选模型的设计、能力和局限性,尽可能进行验证练习,并结合额外的数据流,以提高模型的准确性和可靠性。
四、案例研究:加拿大哈德逊湾的环斑海豹
为了对比不同模型对同一协变量的分析结果,研究人员以一只环斑海豹(Pusa hispida)的运动数据为例,选择猎物多样性作为感兴趣的协变量进行研究。环斑海豹在生态和文化方面具有重要意义,但其在部分分布区域面临数量下降的问题,因此准确描述其与环境的相互作用至关重要。
研究人员分析了一只配备 Argos 卫星遥测发射器的环斑海豹在 2012 年 10 月 29 日至 2013 年 3 月 17 日期间在哈德逊湾的估计运动数据。首先,使用相关随机游走状态空间模型对位置数据进行滤波和正则化,使其变为每天一个位置。然后,将每个海豹位置与相应网格单元中的猎物多样性进行匹配。
研究人员在两个 RSF(一个基于完整数据集,一个基于抽样数据集)、两个 SSF(一个考虑运动 - 栖息地相互作用,一个不考虑)和一个 HMM(在转移概率中纳入猎物多样性协变量)中使用猎物多样性数据作为协变量。利用 R 语言中的 amt 包拟合 RSF 和 SSF,通过逻辑回归估计 RSF 系数,通过条件逻辑回归估计 SSF 系数;使用 momentuHMM 包拟合 HMM。
研究结果显示,不同模型对猎物多样性与栖息地选择关系的估计存在显著差异。RSF 在完整数据集上显示出与猎物多样性显著正相关,但在抽样数据集上不显著;SSF 无论是否考虑运动 - 栖息地相互作用,与猎物多样性均无显著关系;HMM 中不同行为状态与猎物多样性的关系各不相同,如慢运动状态与猎物多样性呈正相关,中等运动状态呈负相关,快运动状态则相对稳定。
这些差异导致不同模型对环斑海豹出现概率或行为的预测地图也不同。RSF 基于其与猎物多样性的正相关关系,预测海豹主要出现在猎物多样性高的区域;SSF 由于与猎物多样性无显著关系,预测的使用概率在空间上分布更均匀;HMM 为每个行为状态生成不同的地图,慢运动状态与 RSF 预测相似,中等运动状态则相反,快运动状态空间变化不大。该案例研究表明,选择错误的模型可能会误导生态研究结论,影响保护和管理决策。同时,考虑数据的自相关性非常重要,如 RSF 在去除自相关性后,对猎物多样性的关系估计不再显著。
五、未来方向
当前,选择函数和 HMM 在动物运动数据分析中应用广泛,新的模型版本不断涌现,为生态研究提供了更深入的理解。例如,一些模型纳入了记忆、昼夜变化和栖息地连通性等因素,更好地模拟动物运动;HMM - SSF 模型将栖息地可用性整合到 HMM 中,用于研究特定行为的栖息地选择;还有模型结合了空间调查等额外数据流,扩展了传统动物 - 栖息地模型。
同时,研究人员也在不断改进主流选择函数和 HMM 的局限性,如在模型中纳入更复杂的时空结构、非线性和随机效应、交叉相关运动核等,以提高模型的拟合效果和准确性。新的方法和工具也在不断发展,用于评估模型的拟合优度、处理不完整数据以及简化 SSF 的空间使用预测模拟等。
此外,还有多种机器学习方法可用于动物运动建模,如 MaxEnt 和随机森林等。MaxEnt 与指数 RSF 类似,更适用于占用数据,但也可应用于运动数据;随机森林能放宽参数方法的假设,但结果解释相对困难。若以预测为目标,常推荐使用这些机器学习方法或基于最小绝对收缩和选择算子(LASSO)的参数方法进行模型选择。
六、结论
本文所回顾的用于将动物运动数据与环境相联系的模型应用广泛且易于实现,但它们提供的生态见解各不相同。RSF 适用于识别广泛的走廊或保护区,SSF 有助于理解运动模式,HMM 则更适合研究动物行为。RSF 是最具大尺度特征的模型,适用于家域研究;SSF 和 HMM 则越来越侧重于运动特定方面的研究。
研究还表明,RSF 结果会因自相关性的去除而改变,可用性位置的采样或排除(如 HMM)以及模型中运动信息的纳入都会影响系数估计。在生态研究和保护管理中,这些模型都具有重要价值,但在应用时需要仔细考虑模型的数学和概念基础,以确保能够准确解决生态问题,并为保护决策提供可靠依据。