综述:基于计算机视觉与深度学习的牛行为识别方法综述

时间:2026年2月13日
来源:Smart Agricultural Technology

编辑推荐:

这篇综述系统梳理了基于计算机视觉(CV)与深度学习(DL)的牛行为识别技术进展,涵盖数据集、模型架构(如CNN、LSTM、3D-CNN及Transformer)及其在精准畜牧业(PLF)中对健康监测、福利评估及智能管理的关键应用。文章指出了当前方法在复杂环境泛化性、标准化基准缺乏及实际部署等方面面临的挑战,并提出了多模态融合、轻量化边缘模型及可解释学习框架等未来方向。

广告
   X   

引言

牛的行为是评估其健康、生态适应及福利状况的重要指标。在畜牧业中,站立、躺卧、采食、饮水等行为蕴含着丰富的生理与健康信息。当牛出现异常行为时,常预示潜在健康问题或环境应激。例如,反刍频率降低与瘤胃功能障碍相关,分娩行为延迟可能预示难产风险,跛行则会影响产奶量、繁殖效率及动物福利。因此,行为监测已成为现代畜牧业中实现疾病早期预警、精准管理及保障动物福利的必要手段。
技术范式经历了三个阶段的演变:最初依赖经验丰富饲养员的人工观察,但存在主观性强、劳动密集等问题;随后,物联网(IoT)技术催生了基于可穿戴传感器(如加速度计、计步器)的接触式监测,改善了数据连续性,但仍受设备干扰、维护成本高及动物应激等因素限制;当前,借助低成本GPU计算及大规模数据集,计算机视觉与深度学习技术推动了真正的非接触式、智能化的牛行为识别范式,能够理解复杂的社会互动及细微步态异常等行为,代表了精准畜牧业的前沿。

方法论

为系统性地回答提出的五个核心研究问题,本研究采用了系统性文献综述方法。文献检索覆盖了Google Scholar、ScienceDirect、IEEE Xplore、Scopus及Web of Science等数据库,并制定了严格的纳入与排除标准,重点关注2020年后发表、以视觉牛行为识别为核心、并采用特定深度学习架构(如CNN、RNN、Transformer、3D-CNN)的原始研究。数据提取涵盖了数据集特征、模型架构、性能指标及局限性等关键变量。由于研究间存在显著的异质性,本文采用叙述性综合方法,根据研究问题对发现进行分类和总结。

数据处理与研究趋势

数据是研究的基础。常用的数据获取方法包括视频监控、可穿戴传感器及声音采集等。其中,视频监控能以非接触方式捕获连续图像或视频序列,适用于反刍、躺卧等复杂行为的识别。为应对遮挡和光照变化等挑战,多相机融合与深度感知技术受到关注。同时,APT-36K、CowScreeningDB等公开数据集为研究提供了重要支撑。数据预处理则涉及帧提取、图像去噪、行为标注以及广泛使用的数据增强技术(如图像旋转、裁剪、亮度调整),以提升模型鲁棒性。
研究趋势方面,相关年发文量自2020年后呈现显著增长,这与深度学习架构的突破密切相关。当前研究主要集中于与健康和生产性能紧密相关的行为,如采食、站立、躺卧及跛行检测,而对反刍、发情等更复杂行为的研究相对较少。从方法学角度看,卷积神经网络(CNN)及其改进结构仍是主流,而结合CNN与时间模型(如LSTM)的联合架构,以及能够同时建模时空信息的三维卷积网络(3D-CNN)应用比例逐渐增加。近年来,Transformer及其注意力机制也被引入该领域,成为新的研究趋势。

卷积神经网络与时间建模方法

卷积神经网络凭借其强大的空间特征提取能力,在牛行为识别中被广泛应用。例如,研究利用CNN模型识别采食、行走、舔盐、反刍、休息等行为,精度可达94%以上。针对奶牛采食行为,有研究构建一维CNN模型,准确率达89.5%。而改进的YOLO系列模型(如DRN-YOLO、YOLOv5s)则能在多目标、复杂环境下实现高精度(mAP > 96%)和实时检测(>20 FPS),满足边缘计算需求。
然而,传统CNN难以捕捉连续帧间的动态演变过程,尤其对于由运动连续性定义的行为(如反刍的咀嚼周期)。为此,时间序列建模方法被引入。长短期记忆网络(LSTM)能有效缓解循环神经网络(RNN)在长序列中的梯度消失问题,被用于分娩前行为识别(准确率约80%)和产犊时间预测。将CNN与LSTM等时间模型结合(即CNN-LSTM架构),则能协同提取时空特征,显著提升复杂行为(如跛行、基本行为分类、呼吸行为监测)的识别性能,准确率可达97%以上,但同时也带来参数量和计算成本的增加。

姿态估计与骨架建模方法

对于需要精确捕捉姿态细微变化的场景(如跛行),基于关键点检测的姿态估计方法展现出优势。这类方法通常分为两个阶段:首先利用OpenPose、HRNet等网络进行多关节检测与定位,随后将关键点序列输入时间网络或图卷积网络(GCN)进行动态建模和行为分类。研究表明,结合改进的Mask R-CNN与梯度提升算法(CatBoost)可实现高达98%的二元跛行检测准确率。基于YOLOv5和EfficientPose的架构可用于奶牛发情行为的实时检测。尽管姿态估计方法具有较好的可解释性和泛化能力,但仍面临高质量标注数据缺乏、复杂场景下遮挡和关键点漂移等挑战。

三维卷积与时空联合建模方法

三维卷积神经网络(3D-CNN)能够直接在卷积操作中同时考虑空间和时间维度,为视频级行为识别提供了自然优势。C3D和I3D是代表性模型。研究通过结合YOLOv3、3D-CNN与光流技术,成功识别了15种子行为类别。改进的Rexnet 3D、集成了SandGlass-3D模块与ECA注意力机制的E3D网络,以及对SlowFast模型进行3DCBAM注意力机制改进等方法,均在奶牛基本运动行为识别中取得了高准确率(95%-98%)。此外,基于3D点云的曲线骨架提取和混合PointNet++网络也在牲畜姿态分析和身份识别中展现出潜力。然而,3D卷积计算负载大、参数冗余,对边缘设备部署构成限制,且在建模长期依赖关系方面存在不足。

当前挑战与未来展望

尽管深度学习模型在实验环境中取得了高性能,但在走向实际农场部署时仍面临系统性障碍。当前挑战主要集中于三点:1. 数据标注与泛化挑战:行为数据集,尤其是异常行为数据稀缺,标注成本高昂。模型在特定数据集上表现良好,但在跨场景、跨品种的实际环境中泛化能力不足。2. 复杂环境干扰挑战:光照变化、牲畜间严重遮挡、高密度群体等因素会显著降低图像清晰度、干扰轨迹跟踪和姿态估计的稳定性。3. 行为结果的进一步量化:当前研究多集中于行为“是否发生”的判别,缺乏对行为过程、频率、持续时间等细粒度信息的系统量化,而这些信息对于全面评估动物健康至关重要。
未来方向应致力于弥合上述鸿沟:1. 应对数据稀缺与泛化:转向自监督学习(SSL),利用海量未标注行为数据预训练适用于畜牧任务的基础模型,以提升跨品种的鲁棒性,最终服务于AI驱动的遗传选育。2. 应对环境干扰:发展超越标准边缘设备的神经形态计算,实现超低功耗的连续现场监测,迈向无处不在的实时监控。3. 弥补量化差距:集成大语言模型(LLM)或视觉-语言模型(VLM),从简单识别转向语义量化,实现基于可操作洞察的、面向健康与生产率的预测性分析。同时,为确保临床相关性,这些先进AI模型的开发必须与兽医学紧密结合,使量化行为指标严格符合既定的动物行为学标准。最后,随着系统走向持续监控,必须解决数据所有权和隐私挑战,并确保AI系统在伦理上对齐,优先考虑动物福利与生产效率。

结论

本综述系统分析了牛行为识别技术的发展,强调了从人工观察到先进深度学习范式的转变。量化而言,这一转变带来了显著的性能飞跃:传统手工特征方法常因环境噪声而停滞在70-80%的准确率,而现代架构(如YOLO、Transformer)则 consistently 展示出超过0.90的平均精度均值(mAP)和实时推理能力(>30 FPS),为精准畜牧业设立了新标杆。然而,在微妙、细粒度行为的识别方面,与站立、躺卧等明显姿势相比仍存差距,且大多数先进模型在应对真实世界可变性(如极端光照、严重遮挡、跨品种域偏移)时的鲁棒性仍是区分学术成功与实际部署可靠性的持久挑战。总之,为推动牛行为识别技术的实际应用,未来研究需更注重提升模型泛化能力、提高部署水平及深化对行为的理解。

生物通微信公众号
微信
新浪微博


生物通 版权所有