基于姿态估计和多层感知器在相机陷阱图像中自动检测双足行走以推断棕熊毛发缠绕互动

时间:2026年5月30日
来源:Remote Sensing in Ecology and Conservation

编辑推荐:

毛发缠绕器(hair snare),由带刺铁丝组成以收集皮毛簇,长期以来被用作基于脱氧核糖核酸(DNA)监测不同熊类的非侵入性采样技术。然而,为防止其他动物或不同棕熊个体的交叉污染,需要技术人员频繁巡查以采集样本并清洁缠绕器,这一过程在时间和资源上要求极高,阻

广告
   X   

毛发缠绕器(hair snare),由带刺铁丝组成以收集皮毛簇,长期以来被用作基于脱氧核糖核酸(DNA)监测不同熊类的非侵入性采样技术。然而,为防止其他动物或不同棕熊个体的交叉污染,需要技术人员频繁巡查以采集样本并清洁缠绕器,这一过程在时间和资源上要求极高,阻碍了其可扩展性。在加泰罗尼亚比利牛斯山脉,仅有24.6%的巡查结果为阳性,突显了需要能够独立于蜂窝网络或人类干预运行的、可扩展的自动化解决方案。本研究提出了一种新方法,通过检测相机陷阱图像中的双足行走姿态来自动推断毛发缠绕器互动。该方法通过结合用于关键点预测的、基于最先进深度学习模型的姿态估计,以及一个用于基于关键点分类双足行走或四足行走的多层感知器(MLP)来实现。由于缺乏带注释的熊姿态数据集,研究人员手动注释了一个在加泰罗尼亚比利牛斯山脉收集的、包含2373张图像的定制数据集,标注了15个解剖学关键点。使用YOLOv11,训练后的姿态估计模型实现了93.2%的关键点推断精度,而MLP在区分双足行走与四足行走方面达到了96.1%的准确率。最后,为了在边缘设备上实现推断,研究人员提出了几种仅使用姿态估计输出的验证策略,包括从推断关键点衍生的熊几何示意图。这种创新的轻量级解决方案旨在通过卫星传输,能够在连接性差和偏远地区实现可扩展部署,显著减少了频繁人工巡查的需求。
在生物多样性快速丧失和人口增长的背景下,精确的野生动物监测方法需求日益迫切。这对于稀有和/或难以捉摸的物种,以及涉及人兽冲突的物种,如存在于人类主导景观中的大型食肉动物,尤为重要。监测这些物种不仅对于制定有意义的保护决策、管理人兽冲突和制定政策至关重要,而且也在不同的法律和社会层面受到强制要求和需求。

毛发缠绕器作为基于DNA监测不同熊类的非侵入性采样技术已使用已久。这些简单的“陷阱”通常由安装在树上的带刺铁丝组成,并用气味诱饵进行引诱,当熊蹭过时会收集到皮毛簇。该技术允许进行个体水平的监测,例如通过标记重捕法推导熊的种群数量。然而,这种方法无法捕捉到有价值的时间和情境信息,如接触的具体日期和时间、个体的身体状况或伴随繁殖雌性的幼崽的存在。

为了弥补这些局限性,将相机陷阱对准毛发缠绕器等补充方法已被证明能有效填补许多信息缺口,例如在比利牛斯山脉的棕熊监测中。两者结合使用时,可以将DNA样本与熊的图像配对以识别个体。然而,为防止其他动物或不同棕熊个体的交叉污染,需要技术人员频繁巡查以采集被捕获的毛发并清洁缠绕器。

许多因素对毛发陷阱的检测率产生负面影响,从而削弱了种群估计的可靠性。例如,路过的熊并不总是会蹭过或留下足够的毛发用于DNA扩增。此外,它们的低种群密度、偏远的栖息地和大的家域范围,使得频繁检查广泛的陷阱网络在时间和资源上要求极高。在加泰罗尼亚比利牛斯山脉,共设立了338个毛发陷阱点进行盲测,理想情况下根据所在区域每15天或30天检查一次。然而,仅有24.26%的巡查结果为阳性。同时,熊的互动与样本采集之间的长间隔常导致DNA降解或其他个体的污染。

一些具备移动连接功能的现代相机陷阱能够发送实时图像,这减轻了技术人员巡查毛发缠绕器站点的压力。这种能力有助于更有效地利用资源。然而,熊类种群通常栖息在蜂窝网络覆盖有限或没有的偏远地区,使得其实现非常有限。此外,判断熊是否与缠绕器发生物理互动通常需要分析行为线索,如双足站立姿态。这些局限性阻碍了可扩展性,并且在资源可用的情况下,对时间和资源要求极高。同时,这些挑战也突显了需要能够独立于蜂窝网络或人类解读运行的、可扩展的自动化解决方案。

人工智能的最新进展,特别是在计算机视觉领域,为解决这些限制提供了有前景的工具。其中,深度学习技术,如在十多年前彻底改变了计算机视觉任务的卷积神经网络(CNN),为图像分类、目标检测或推断人体位置提供了强大的工具。动物生态学也接纳了这次机器学习爆发,并且得益于该领域的进展,保护工作者可以使用深度学习工具从数千张图像中检测动物,或在无需跟踪物理标记的情况下估计其姿态。尽管先前也使用摄影测量法在动物身上进行无标记姿态估计,但对照明和背景条件有非常特殊的要求。近年来,基于深度学习的姿态估计已用于追踪啮齿动物的行为,以及理解野生猎豹复杂的运动生物力学等。然而,尚未有研究使用姿态估计对棕熊进行分析以推断如双足站立等行为,这可用作毛发缠绕器摩擦的代理指标。拥有一个可靠的跟踪方法可以实现毛发缠绕器监测的自动化。在边缘设备上运行姿态估计模型,并通过廉价但可靠的卫星连接传输结果,可以实现可扩展性并更高效地利用时间和资源。

为评估姿态估计算法的能力,研究人员提出了一种在棕熊中推断双足行走的方法。一个广泛使用的、最先进的人体关键点定位深度学习模型被调整为能够识别熊的身体部位。随后,基于预测关键点通过一个多层次感知器模型推断双足行走或四足行走姿态。

本文的目标是:(1)开发一种通过预测双足行走对比四足行走来推断熊背部摩擦毛发缠绕器的方法。为此,(2)调整一个人体姿态估计模型以能够估计熊的姿态。由于比利牛斯山脉不断增长的棕熊种群中图像稀缺,(3)通过迁移学习从类似的、已注释的动物数据集中获取知识。最后,(4)为边缘设备找到一种可靠的解决方案,以轻量级形式向终端用户提供推断的姿态信息,适用于卫星连接传输,从而实现跨多种环境的可扩展性。

本研究分析了2020年至2023年期间在加泰罗尼亚上比利牛斯山脉为棕熊种群监测收集的图像,该区域面积达2336平方公里,主要位于西班牙东北部的帕利亚斯索比拉、帕利亚斯胡萨和阿尔塔里瓦戈尔萨等县。在223个毛发缠绕器站点中,有109个额外配备了朝向嵌有毛发缠绕器树木的相机陷阱。监测网络通常在3月至11月期间运行。在熊冬眠期间,大多数相机被撤走。

在2020年至2022年期间,监测网络中109个同时配有毛发缠绕器和相机陷阱的站点中,有25个站点记录到熊的个体。这一时期的图像用于训练和验证模型。该数据集共包含2373张图像:1247张在白天拍摄的彩色图像,以及1126张主要在夜间或黄昏使用相机陷阱红外传感器拍摄的灰度图像。这代表了昼夜图像约53/47%的平衡。棕熊出现在2330张图像中,43张为空白背景帧。图像来自六个不同品牌的相机陷阱,涵盖了不同的图像尺寸、镜头特性、红外闪光系统和彩色传感器,赋予了数据集异质性。图像分辨率范围从2.1兆像素(1920 × 1080)到14.6兆像素(4416 × 3312),所有文件均以JPG格式存储。

为避免数据泄露,在相机站点级别进行划分,确保每个站点被唯一分配到训练集或验证集。训练集:14个相机站点,提供1666张图像,包括429张双足行走的熊和1204张四足行走的熊,以及33张空白背景。验证集:11个相机站点,包含576张图像,包括196张双足行走的熊和370张四足行走的熊,以及10张空白背景。该分布导致训练集和验证集约74%/26%的划分,四足与双足示例约72%/28%的分布。测试集使用2023年部署的新相机陷阱位置的图像构建。这些站点未用于训练或验证;因此,背景场景对模型来说始终是新的。测试集:7个相机站点,包含193张图像,包括66张双足行走的熊和121张四足行走的熊,以及6张空白背景。该分布代表了测试集中四足和双足姿态约65/35%的分布。

为追踪熊的身体姿态,选择了15个解剖学关键点进行注释,对应于鼻子,以及左右耳、肩、肘、腕、臀、膝和脚。每个关键点由一组三元值(X, Y, Z)定义:X和Y为归一化的图像坐标;Z为关键点可见性标志,2 = 清晰可见,1 = 位于图像帧外,0 = 被灌木、树木、身体其他部分或其他个体遮挡。图像使用计算机视觉注释工具(CVAT)由两位不同的人工专家手动注释。最后,根据熊是用两条腿还是四条腿站立,将每张图像标记为“双足行走”或“四足行走”。

本研究选择了目前最先进的用于实时目标检测的深度学习架构YOLO(You Only Look Once),因其在不同版本中表现出的卓越性能及其执行姿态估计任务的能力。与姿态估计一起,Ultralytics YOLO框架提供了多个版本和功能,范围从图像分类、目标检测(支持旋转边界框)到语义分割。Ultralytics模型使用PyTorch框架进行训练和推理,并可根据部署需求导出为多种格式。

支持姿态估计的版本包括YOLOv8、YOLOv11和YOLOv12。然而,截至本文撰写时,最新版本仍处于早期开发阶段。因此,仅选择了YOLOv8和YOLOv11进行比较评估,以确定哪个模型架构在数据集上产生最佳性能。为了最大化姿态估计精度,选择了每个架构中最大的模型尺寸。YOLOv8最大模型(YOLOv8x-pose-p6)包含294层、99,180,696个参数,需要267.4 GFLOPs。相比之下,YOLOv11最大模型(YOLOv11x-pose)包含372层、58,889,881个参数,需要204.3 GFLOPs。重要的是要注意,较新的模型并不一定对应更好的性能,因为改进可能侧重于推理速度、效率或可移植性,而非精度。在本研究中,优先考虑姿态估计的精度和准确度,而非推理速度,因为该模型并非用于时间敏感的决策任务。

Ultralytics YOLO框架为各种模型架构和任务维护了一个预训练权重库。这些权重是使用通用物体上下文(COCO)数据集及其变体训练的。在本研究中,使用在COCO 2017关键点数据集(包含在具有挑战性的非受控条件下的人体关键点)上训练的模型作为初始化权重。使用预训练模型可以显著减少时间和计算资源,因为神经网络已经能够检测基本的图像特征,如边缘、形状和纹理,这些特征随后会发展为更高级、更复杂的结构。事实上,人体和熊的身体具有高度的结构相似性;因此,将人体姿态估计模型适配到熊,比仅使用熊的示例从头开始训练熊姿态模型估计器能产生更好的模型。训练使用YOLOv8和YOLOv11变体顺序进行,使用它们的默认超参数,但输入图像尺寸从默认的640调整为1024像素。进行此更改是为了帮助网络改进对鼻子等较小部分的检测。为防止过拟合,应用了耐心为100个轮次的提前停止功能。这种正则化形式会在模型在定义的连续轮次数内未在验证集上显示改进时停止训练。该方法有助于模型在未见数据上更好地泛化。所有计算都在一台配备768 GB RAM和四个NVIDIA L40S GPU(总计184 GB VRAM)的Supermicro GPU服务器上进行。在所有实验中保持相同的软件环境,CUDA版本为12.5,Ultralytics版本为8.3.193。注释者未进行任何数据预处理或手动数据增强。然而,在训练过程中,由Ultralytics YOLO实现的流水线自动应用了数据增强。数据增强包括应用于原始数据的一系列变换,以生成更多样化的训练图像,从而提高模型的泛化性和鲁棒性。具体来说,应用了以下默认数据增强技术:颜色空间调整,包括色调(hsv_h)、饱和度(hsv_s)和亮度(hsv_v);几何变换,如平移(translate)和缩放(scale);马赛克增强:将四张图像组合成一张(mosaic);水平翻转:(fliplr)。为了启用此数据增强技术,必须提供关键点的镜像映射以保留解剖学侧向性。这些变换通过Ultralytics YOLO代码无缝集成到训练过程中,可以根据需要进行自定义或禁用。

迁移学习是计算机视觉中广泛采用的技术,特别是在处理深度神经网络时。它使得能够在大型、类似数据集上模型已获得的知识得以迁移,然后使用另一个通常较小的数据集的特征进行微调。通过这种方法,最终训练的网络通常能产生更好的性能,这在从随机初始化权重从头开始训练网络时很少能实现。如前所述,COCO 2017关键点数据集作为训练模型的起点,为神经网络提供了关键点检测的基础知识。然而,COCO和大多数姿态数据集的主要局限性在于它们侧重于人类受试者及其活动。虽然人体和熊之间的身体关节大部分是共享的,但身体形状、衣服和毛皮差异显著。为探索中间微调是否能提高最终性能,进行了第二次实验。使用斯坦福犬数据集的一个子集进行中间训练,然后再在熊数据集上进行微调。这个犬姿态数据集包含6773张训练图像和1703张验证图像,专门为犬关键点估计策划。每张图像都标注了24个关键点,包括可见性,可用作训练鲁棒姿态模型的坚实基础。此中间步骤的目的是促进从人类预训练模型到熊特定数据集的更好知识迁移。虽然两个类别非常不同,但在具有类似视觉特征的四足动物数据集上训练可能有助于网络更好地学习熊解剖学的细微差别。此外,犬数据集包含的图像数量大约是熊数据集的三倍。初始训练后,进行了第二轮训练。这次是在犬姿态数据集上微调COCO关键点人体预训练模型。对于v8和v11模型变体都进行了相同的过程。

为了评估模型准确预测熊解剖学关键点的能力并比较它们之间的性能,使用了多种指标。目标关键点相似度(OKS)是姿态估计任务中广泛使用的指标。它遵循类似于传统目标检测任务中交并比(IoU)的概念来评估推断关键点的正确性。虽然IoU是基于面积的重叠度量,但OKS使用基于距离的方法。为了计算OKS,将预测关键点坐标与相应真实值之间的欧几里得距离与一个以定义的均匀标准差的非归一化高斯曲线进行比较。这为每个关键点生成一个0到1之间的相似度值。对所有可见关键点的值求平均会得到一个OKS分数。完美的匹配预测将产生OKS = 1,而偏离几倍的预测将产生OKS ~0。遵循相同的逻辑,目标检测中其他流行的指标也被适配到姿态估计中。评估目标检测性能最常见的指标之一是平均精度均值(mAP),它有两个变体:mAP@50和mAP@50-95。这两个指标考虑了预测的关键点相似性,以及在不同阈值下关键点标签的正确性。mAP@50:如果OKS > 0.5,则预测的关键点被计为正确。然后,将结果平均为一个分数。mAP@50-95:更严格的变体,遵循与mAP@50相同的逻辑。在这种情况下,它计算10个不同阈值的mAP,从OKS = 0.5到OKS = 0.95,步长为0.5。然后,将它们全部平均为一个分数。在本研究中,使用基于OKS的mAP@50-95作为主要指标来确定熊姿态估计的最佳性能模型。精确率和召回率的定义如下:精确率:衡量在所有检测中有多少是正确的。换句话说,真阳性和所有预测阳性之间的比率。召回率:衡量在所有真实标签中有多少被正确预测。换句话说,真阳性和所有应被预测的阳性之间的比率。其中,TP:真阳性。即,在OKS ≥ 0.5时检测到的熊的数量。FP:假阳性。即,模型检测到的不存在的熊的数量。FN:假阴性。即,模型遗漏的熊的数量。

大多数机器学习系统都有不同的可修改超参数。超参数是高级结构设置,如学习率、动量或权重衰减,它们显著影响训练动态和最终性能。最近的深度学习模型,如本实验中使用的模型,关键取决于一系列广泛的超参数选择,这些选择应针对具体问题和数据集进行调整以优化性能。为此,使用Ultralytics YOLO框架内置的超参数进化模块进行了超参数调优。该模块使用受自然选择和基因突变机制启发的遗传算法。调优过程运行预定义的迭代次数。在每次迭代中,通过在局部超参数空间内对现有值应用小的随机扰动生成新的超参数值。然后,使用生成的超参数训练模型一小部分轮次。适应度函数评估使用变异超参数的模型在数据集上的性能,引导进化朝向最佳性能。调优超参数是一个计算需求非常高的过程,需要大量迭代来找到最佳值,因此需要大量时间和精力。此过程的起始权重取自先前微调的犬姿态模型。由于熊数据集较小,使用全部训练和验证子集来搜索YOLOv8和YOLOv11的最佳超参数。研究了以下超参数以找到最佳组合和性能:初始学习率(lr0)、最终学习率(lrf)、SGD动量(momentum)、优化器权重衰减(weight_decay)、预热轮次(warmup_epochs)、预热初始动量(warmup_momentum)、边界框损失增益(box)、分类损失增益(cls)、分布焦点损失(dfl)、姿态损失增益(pose)、关键点损失增益(kobj)、图像HSV-色调增强(hsv_h)、图像HSV-饱和度增强(hsv_s)、图像HSV-明度增强(hsv_v)、图像平移(translation)、图像缩放(scale)、图像左右翻转(fliplr)和图像马赛克(mosaic)。超参数调优过程完成后,使用找到的最佳超参数对两种变体进行了两次不同的训练:COCO ➔ BEAR 使用优化超参数。为了评估仅通过调优超参数获得的性能增益,使用优化超参数从COCO预训练权重在定制数据集上重新训练了模型。COCO ➔ DOG ➔ BEAR 使用优化超参数。同样,为了评估从生物上更相似的物种进行迁移学习的好处,模型以在犬数据集上微调COCO预训练模型后得到的权重初始化,然后使用优化超参数在完整的熊数据集上进行微调。训练后,使用测试集评估姿态模型。

为了对双足行走与四足行走姿态进行分类,考虑了不同的策略。最初提出的一个解决方案是考虑由连接肩到臀,以及臀到膝的两个向量形成的角度。然而,具有明显坡度的地形会导致误报。此外,三个关键点中任意一个的不正确调整已经会导致错误分类。因此,考虑了一个利用全部关键点群体的更稳健的解决方案。为此,训练了一个多层感知器(MLP)。MLP是简单的前馈神经网络,由组织成三层或更多层、具有不同数量神经元的全连接层(感知器)组成。它们非常适合区分数据中非线性可分的模式,并通过反向传播进行训练。得益于它们的非线性激活,MLP可以近似复杂的决策边界并学习依赖于姿态的几何模式,如相对肢体位置、对称配置、身体延伸或躯干倾斜。重用真实关键点注释来训练MLP分类器。为增强表示,组合数据以定义新特征,以确定哪种组合产生最佳分类性能:角度。定义了六个不同的角度(六个数值):左右后腿(脚、膝、臀);左右前腿(手、肘、肩);左右臀角(膝、臀、肩)。边界框(bbox)。YOLO输出的边界框坐标(四个数值)。基于关键点的边界框(bbox_keypoints)。考虑最外层关键点计算的边界框坐标(四个数值)。姿态(pose)。图像内归一化的关键点位置(30个数值)。

为此任务,训练了一个具有三层(一个输入层、一个隐藏层和一个输出层)的MLP。输入层的大小由所用特定特征向量的维度决定。隐藏层大小通过将输入层大小乘以因子1、2或3来确定,以评估不同的模型复杂性。每个隐藏单元应用一个仿射变换,后跟一个非线性激活函数,使网络能够捕获特征之间的非线性关系。最后,输出层大小为2,分别为“0”代表双足行走或“1”代表四足行走。还评估了批量大小为8、16和32,以及不同的损失函数(交叉熵、加权交叉熵、焦点损失和骰子损失)。MLP最多训练10,000轮次,具有耐心为300轮次的提前停止功能。初始学习率设置为0.001,当验证损失达到平台期时,学习率乘以因子0.5。

为在不同环境中实现可扩展性,卫星连接提供了一个全球性和可靠的解决方案,因为几个卫星星座现在提供近乎连续的全球覆盖。然而,数据带宽极为有限或昂贵,它们不能用作传输图像的经济高效解决方案,阻止了任何对推断关键点和姿态的视觉验证。为了解决这个问题,提出了几种终端用户验证方案。这些方法无需通过昂贵的卫星连接传输完整分辨率图像,即可实现对熊姿态的高效远程监测。

提出了一种自定义Python脚本,将预测关键点的归一化相对位置转换为100 × 40字符网格。关键点用其名称标记,骨架连接以增强可解释性表示。另一种仅使用预测关键点位置信息的轻量级方法是渲染重新创建熊骨架结构的火柴人图形。这种简单的姿态重建形式已经非常直观且计算高效。最后,一个更直观和可解释的解决方案可以是使用几何形状(如椭圆和圆形)绘制熊的身体。使用预定义规则,可以通过配对不同的解剖学关键点来绘制身体部位。例如,一个连接肘部和手部以构建腋窝的椭圆,或另一个包含双肩和双臀以绘制躯干的椭圆。这些解决方案提供了清晰易懂的熊姿态表示,无需高带宽图像传输。这为终端用户在姿态模型可能难以做出准确预测的情况下提供了验证步骤。当使用时,数据传输的最终要求降低,从完整图像(约3 MB)减少到仅发送坐标(约100 B)。这种巨大的重量减轻可以通过降低信息传输成本来实现可扩展性。此外,这些表示可以根据数据传输带宽或余量在边缘设备端或客户端绘制,为终端用户带来更多灵活性。

使用测试集评估了不同训练策略下的六个不同实验的结果。使用默认超参数的COCO ➔ BEAR微调:初始实验涉及在BEAR数据集上微调从COCO 2017关键点数据集预训练的YOLOv8和YOLOv11模型变体,以建立基线性能指标。训练持续时间约为8.3小时(YOLOv8)和5.3小时(YOLOv11)。面对测试集时,YOLOv8和YOLOv11在mAP@50-95上分别仅取得0.0532和0.0889的极低分数,表明两个模型都在努力学习新数据。超参数调优:鉴于使用默认超参数的两种YOLO变体性能极差,进行了调优过程。调优结果显著提升了模型性能。基于mAP@50-95,YOLOv8模型性能显示出605%的相对提升(从0.0532提升至0.375),而YOLOv11也显示出329%的显著相对提升(从0.0889提升至0.381)。这标志着模型从低性能水平跃升至更具竞争力的范围。使用优化超参数的COCO ➔ DOG ➔ BEAR微调:辅助模型从以人为中心转向更视觉相似的犬特征,提高了两个模型的整体性能,YOLOv8的mAP@50-95性能相对提升了20%(从0.375提升至0.451),YOLOv11则相对提升了14%(从0.381提升至0.435)。这表明,在没有熊注释数据集的野生动物数据稀缺环境中,利用更大、视觉相似的数据集应被视为一种有效的方法。在mAP@50-95上,两个模型在超参数优化和微调后显示出相似的分数,两者之间仅有0.016分的差异。考虑到这种情况,也考虑了其他指标以选择最合适的模型。YOLOv11在所有其他指标上均优于YOLOv8:mAP@50(+19%相对性能差异)、精确率(+22%)和召回率(+16%)。因此,YOLOv11被选为性能最佳的模型。

本研究的主要目标是评估使用机器学习推断特定熊行为(如双足行走或四足行走姿态)的可行性。训练后的MLP表现出非常强大的性能,准确率达到97%,表明进一步的改进应专注于增强姿态估计模型的关键点推断,而非分类阶段。然而,发生了七次错误分类,这些并非由不正确的关键点推断引起。大多数涉及熊在四足行走和双足行走姿态之间的转换,而有一例涉及一只熊坐在树前,该姿态既非双足行走(尽管前肢抬起)也非四足行走。这些错误分类并非简单明了,而是边界情况。然而,仅接收二进制响应(双足行走或四足行走)或原始预测关键点坐标,无法知道模型对其预测的置信度,也无法知道特定图像是否属于“边界”类别。因此,通过提出的验证方案(ASCII和几何插图)进行的视觉表示为每个情况提供了清晰度,同时避免了传输完整图像的需要,使其在远程生态监测中非常实用。为提高效率,该解决方案也可以与野生动物识别系统(如PyrVision或DeepFaune)集成。在这种配置下,仅在检测到棕熊时才启动双足行走检测流水线。总体而言,该解决方案具有实际意义,可使毛发缠绕器监测在偏远或连接性差的环境中更具可扩展性。双足行走检测可用作识别潜在毛发缠绕器互动的代理指标,其假设是站在嵌有缠绕器的树旁的熊很可能正用背部摩擦带刺铁丝。此外,提出的可视化选项允许用户验证这些互动,而无需传输高分辨率图像,节省了昂贵的带宽并减少了对频繁人工检查陷阱的需求。这可以通过仅关注已确认访问过的缠绕器来显著优化野外作业。

尽管最终结果由于中间训练和超参数调优显示出显著改善,但数据集的有限规模仍是实现更可靠和可泛化推断的主要障碍。深度学习神经网络通常需要大量且多样化的数据才能获得可信的结果。棕熊固有的难以捉摸性和比利牛斯山脉相对较小的种群使得构建更大的数据集变得困难且费力。使用来自类似生物群落(如阿尔卑斯山)的相机陷阱图像扩展数据集可以帮助缓解这一限制。然而,这将需要两个区域监测计划之间的跨区域合作,以及为新图像进行手动标注的巨大努力。尽管使用小型、区域特定数据集可能看似限制了模型泛化到其他地区或熊物种的能力,但大多数熊科动物(除北极熊和大熊猫外)具有相似的身体比例和深色毛皮。在训练期间,数据增强技术引入了色调、饱和度和亮度的变化,有效地扩展了模型看到的颜色范围。这些图像颜色变化可能允许神经网络在具有不同毛皮色调的不同熊物种上表现合理。此外,数据集包含了来自25个相机陷阱站点的图像,每个站点由于缠绕器周围异质的森林结构而安装在不同的距离和角度。这种可变性导致了图像中表观身体大小的广泛范围,这可能有助于模型泛化到比比利牛斯棕熊更大或更小的物种。由于传统的卷积神经网络不具有上下文感知能力,训练图像中的这种尺度变化固有地促进了更鲁棒的尺寸相关泛化。总的来说,更多的数据肯定会提高棕熊的整体模型性能,并可能进一步扩展其泛化到其他熊物种的能力。尽管如此,未来的工作应通过在包含多种熊物种的公开可用数据集上测试所提出的方法来明确评估这些假设。

本研究证明,深度学习姿态估计模型可以有效地应用于野生动物监测任务,具体用于推断比利牛斯山脉的棕熊姿态。本研究贡献了(1)一个新的熊图像数据集,每张图像都有15个专为熊姿态分析设计的、带注释的解剖学关键点。(2)一个能够以96%精度可靠推断熊解剖学关键点的YOLO姿态估计模型。(3)一个用于区分双足行走和四足行走、准确率为97%的MLP分类器。最后,(4)三种不同的基于YOLO关键点预测构建的视觉解决方案,用于对预测姿态进行视觉验证。超参数优化显著提高了模型性能,YOLOv8的mAP@50-95分数相对提高了605%,YOLOv11提高了329%,突出了针对目标数据集调整超参数的重要性。此外,在斯坦福犬数据集上进行的中间训练通过为YOLOv8提供20%和为YOLOv11提供14%的额外性能改进。这些结果突显了迁移学习和领域迁移对于生态应用的价值,在数据集较小的情况下,一个视觉上相似的类别可以作为通用模型和专用模型之间的桥梁。一个定制的MLP分类器通过使用相对关键点位置,达到了97.35%的准确率来区分双足行走和四足行走,从而实现了对诸如摩擦毛发缠绕器等行为的自动推断。此外,引入了一种实用的解决方案,无需传输完整分辨率图像,即可使用YOLO输出和轻量级可视化来验证远程姿态推断。这种创新方法能够在低带宽环境中实现可扩展部署,并显著减少对频繁人工检查的需求。然而,有限的数据集规模仍然是一个关键制约因素,影响了姿态估计模型的性能,进而阻碍了MLP的能力。未来的工作应专注于通过跨区域合作,使用类似生物群落扩展数据集,以及通过添加更多姿态情况(如坐姿或姿态转换)来处理边界情况。

生物通微信公众号
微信
新浪微博


生物通 版权所有