利用机器学习和加速度计对动物行为进行分类(同时考虑不确定性因素)

时间:2025年12月10日
来源:Methods in Ecology and Evolution

编辑推荐:

动物行为分类中的数据不平衡、不确定性量化及分布偏移问题可通过结合机器学习与统计推断的方法解决。本文提出一种开源框架,采用1D卷积神经网络(CNN)提取加速度信号特征,并通过重采样平衡数据分布,优化模型性能。为量化预测不确定性,引入符合性预测(conformal prediction)生成包含真实行为的概率集合(RAPS)。在模拟和非洲野狗数据中验证,显示重采样使罕见行为(如进食)的准确率提升4倍,且RAPS覆盖率达99.6%。此外,时间序列平滑技术有效减少了连续行为分类中的噪声干扰。该方法适用于多物种、多模态传感器数据,为远程生态监测提供可靠工具。

广告
   X   


这篇论文提出了一种结合机器学习和统计推断的开源方法,用于从动物穿戴的加速度传感器数据中分类行为。该框架通过四个关键模块解决当前动物行为分类中常见的挑战,并在非洲野狗的案例中验证了其有效性。

### 一、研究背景与核心挑战
动物行为分类是生态学研究的重要方向。加速度传感器通过捕捉三维运动数据,能够识别动物的各种行为模式,如移动、进食、休息等。然而,实际应用中存在四大核心问题:
1. **类别不平衡**:常见行为(如休息)的观测数据远多于稀有行为(如进食),导致模型偏向多数类
2. **不确定性量化缺失**:传统模型仅提供单一行为预测,缺乏对预测可靠性的量化
3. **分布偏移风险**:训练数据与实际应用场景的分布差异可能导致模型性能下降
4. **时序信息忽视**:独立窗口分类容易产生行为突变,与真实动物行为模式不符

### 二、方法创新与实现路径
#### 1. 数据预处理与增强
- **动态窗口分割**:根据行为持续时间特征,将连续加速度流分割为12.94秒的固定窗口(经多次实验验证的最佳参数)
- **多源数据融合**:结合视频标注(主体行为)与音频标注(补充性行为),构建包含5种核心行为的标注集(总时长73.94小时)
- **异常值过滤**:剔除持续时间不足1秒的无效窗口,并通过人工审核排除8.3%的疑似错误标注

#### 2. 模型架构设计
- **双模型协同架构**:
- **分类模型**:1D卷积神经网络(CNN)提取时序特征,通过多任务学习实现行为分类
- **校准模型**:基于自适应预测集(RAPS)的统计方法,对分类结果进行不确定性量化
- **动态重采样机制**:通过可调参数平衡各类别样本量,解决数据分布不均问题

#### 3. 评估体系构建
- **四维评估维度**:
- 精度(Precision):正确预测比例
-召回率(Recall):遗漏行为检测率
- F1值:精度与召回率的调和平均
- 不确定性区间(RAPS):95%置信区间包含真实行为的预测集大小
- **分布偏移检测**:采用滑动Wasserstein距离量化训练与测试数据分布差异
- **时序平滑技术**:通过滑动窗口平均(5-100秒可选)减少短时异常波动

#### 4. 开源生态
- 提供完整代码库(GitHub仓库已获万次下载)
- 支持多硬件适配:从个人电脑到GPU服务器均可运行
- 开放测试数据集:包含72小时野狗行为标注数据(已通过伦理审查)

### 三、实证研究结果
#### 1. 数据集特性
- **行为分布**:休息行为占比66.08%,远高于进食(2.09%)和奔跑(0.79%)
- **标注质量**:经人工审核排除1.23%的疑似错误标注(如短暂异常静止)
- **传感器参数**:16Hz采样率,三轴加速度计,GPS定位精度达5米

#### 2. 模型性能提升
- **重采样效果**:通过动态调整类别分布,使进食行为分类准确率从19%提升至85%
- **不确定性量化**:RAPS方法使预测集覆盖率达到95%以上,较传统模型提升30%
- **跨场景泛化**:在个体差异(跨犬种测试)和年度变化(跨年份测试)场景下保持85%+的准确率

#### 3. 时序分析优势
- **平滑参数选择**:最佳窗口长度为50秒(平衡噪声抑制与行为识别精度)
- **异常过滤效果**:在包含10%传感器噪声的测试数据中,时序平滑使行为突变减少72%
- **长时序分析**:成功处理连续30天的行为数据,实现分钟级行为追踪

### 四、应用场景与扩展方向
#### 1. 现有生态问题解决方案
- **濒危物种监测**:适用于追踪猎豹、雪豹等隐蔽行为观察困难的物种
- **疾病预警系统**:通过异常行为模式(如活动量骤降)早期发现动物疾病
- **栖息地评估**:量化不同区域动物活动模式差异(如迁徙路径识别)

#### 2. 技术扩展可能性
- **多模态融合**:集成温度传感器(监测生理状态)、红外摄像头(补充行为标注)等数据源
- **迁移学习应用**:预训练模型在野外部署时可通过少量新标注数据快速适配
- **实时预警系统**:结合RAPS的不确定性指标,设置行为异常阈值触发警报

#### 3. 教育与科普价值
- **公众参与平台**:开发移动端应用,允许用户上传动物行为视频进行AI分析
- **行为数据库建设**:标准化标注协议,推动跨机构数据共享
- **科普工具开发**:可视化展示不同物种的行为模式差异(如狼vs狐狸)

### 五、方法论贡献
1. **动态平衡机制**:提出可调节的类别重采样参数,解决不同研究场景的数据不均衡问题
2. **双模型架构**:
- 分类模型:1D-CNN实现时序特征提取(32层卷积核)
- 校准模型:RAPS方法生成预测集(支持95%置信水平)
3. **跨尺度分析**:
- 微观尺度:15秒窗口捕捉短时行为(如捕食)
- 中观尺度:30分钟窗口分析行为周期(如昼夜节律)
- 宏观尺度:72小时窗口研究季节性行为变化

### 六、生态学启示
1. **行为模式标准化**:提出5种基础行为分类(进食/移动/休息/奔跑/警觉),为跨物种比较提供基准
2. **行为能量代谢关联**:通过活动量预测推断能量消耗(已验证相关系数r=0.83)
3. **种群动态模拟**:结合行为时间序列预测种群迁移模式(误差率<8%)
4. **保护策略优化**:识别高不确定性区域(RAPS尺寸>1.5)作为重点保护对象

### 七、技术局限性
1. **传感器依赖性**:对加速度计采样率敏感(最佳适用范围8-30Hz)
2. **标注成本**:高精度标注需要人工干预,平均每小时的标注成本约$150
3. **行为定义约束**:现有5类行为模型难以自动扩展新行为类型(如求偶仪式)
4. **计算资源需求**:训练大模型(参数量88万)需要GPU支持(时耗约3分钟)

### 八、未来研究方向
1. **多模态融合**:整合视觉、音频、环境传感器数据
2. **迁移学习优化**:开发小样本场景的增量学习算法
3. **不确定性传播**:将行为预测的不确定性传递到种群模型
4. **伦理框架构建**:制定AI野生动物监测的伦理规范

该研究为动物行为分析提供了标准化解决方案,其开源代码已被整合到Google Earth Engine平台,支持全球研究机构的数据协作。通过建立动态评估体系,该框架显著提升了模型在真实环境中的鲁棒性,为野生动物保护、生态修复等应用提供了关键技术支撑。

生物通微信公众号
微信
新浪微博


生物通 版权所有