综述：基于计算机视觉与深度学习的牛行为识别方法综述

时间：2026年2月13日

来源：Smart Agricultural Technology

编辑推荐：

这篇综述系统梳理了基于计算机视觉（CV）与深度学习（DL）的牛行为识别技术进展，涵盖数据集、模型架构（如CNN、LSTM、3D-CNN及Transformer）及其在精准畜牧业（PLF）中对健康监测、福利评估及智能管理的关键应用。文章指出了当前方法在复杂环境泛化性、标准化基准缺乏及实际部署等方面面临的挑战，并提出了多模态融合、轻量化边缘模型及可解释学习框架等未来方向。

引言

牛的行为是评估其健康、生态适应及福利状况的重要指标。在畜牧业中，站立、躺卧、采食、饮水等行为蕴含着丰富的生理与健康信息。当牛出现异常行为时，常预示潜在健康问题或环境应激。例如，反刍频率降低与瘤胃功能障碍相关，分娩行为延迟可能预示难产风险，跛行则会影响产奶量、繁殖效率及动物福利。因此，行为监测已成为现代畜牧业中实现疾病早期预警、精准管理及保障动物福利的必要手段。

技术范式经历了三个阶段的演变：最初依赖经验丰富饲养员的人工观察，但存在主观性强、劳动密集等问题；随后，物联网（IoT）技术催生了基于可穿戴传感器（如加速度计、计步器）的接触式监测，改善了数据连续性，但仍受设备干扰、维护成本高及动物应激等因素限制；当前，借助低成本GPU计算及大规模数据集，计算机视觉与深度学习技术推动了真正的非接触式、智能化的牛行为识别范式，能够理解复杂的社会互动及细微步态异常等行为，代表了精准畜牧业的前沿。

方法论

为系统性地回答提出的五个核心研究问题，本研究采用了系统性文献综述方法。文献检索覆盖了Google Scholar、ScienceDirect、IEEE Xplore、Scopus及Web of Science等数据库，并制定了严格的纳入与排除标准，重点关注2020年后发表、以视觉牛行为识别为核心、并采用特定深度学习架构（如CNN、RNN、Transformer、3D-CNN）的原始研究。数据提取涵盖了数据集特征、模型架构、性能指标及局限性等关键变量。由于研究间存在显著的异质性，本文采用叙述性综合方法，根据研究问题对发现进行分类和总结。

数据处理与研究趋势

数据是研究的基础。常用的数据获取方法包括视频监控、可穿戴传感器及声音采集等。其中，视频监控能以非接触方式捕获连续图像或视频序列，适用于反刍、躺卧等复杂行为的识别。为应对遮挡和光照变化等挑战，多相机融合与深度感知技术受到关注。同时，APT-36K、CowScreeningDB等公开数据集为研究提供了重要支撑。数据预处理则涉及帧提取、图像去噪、行为标注以及广泛使用的数据增强技术（如图像旋转、裁剪、亮度调整），以提升模型鲁棒性。

研究趋势方面，相关年发文量自2020年后呈现显著增长，这与深度学习架构的突破密切相关。当前研究主要集中于与健康和生产性能紧密相关的行为，如采食、站立、躺卧及跛行检测，而对反刍、发情等更复杂行为的研究相对较少。从方法学角度看，卷积神经网络（CNN）及其改进结构仍是主流，而结合CNN与时间模型（如LSTM）的联合架构，以及能够同时建模时空信息的三维卷积网络（3D-CNN）应用比例逐渐增加。近年来，Transformer及其注意力机制也被引入该领域，成为新的研究趋势。

卷积神经网络与时间建模方法

卷积神经网络凭借其强大的空间特征提取能力，在牛行为识别中被广泛应用。例如，研究利用CNN模型识别采食、行走、舔盐、反刍、休息等行为，精度可达94%以上。针对奶牛采食行为，有研究构建一维CNN模型，准确率达89.5%。而改进的YOLO系列模型（如DRN-YOLO、YOLOv5s）则能在多目标、复杂环境下实现高精度（mAP > 96%）和实时检测（>20 FPS），满足边缘计算需求。

然而，传统CNN难以捕捉连续帧间的动态演变过程，尤其对于由运动连续性定义的行为（如反刍的咀嚼周期）。为此，时间序列建模方法被引入。长短期记忆网络（LSTM）能有效缓解循环神经网络（RNN）在长序列中的梯度消失问题，被用于分娩前行为识别（准确率约80%）和产犊时间预测。将CNN与LSTM等时间模型结合（即CNN-LSTM架构），则能协同提取时空特征，显著提升复杂行为（如跛行、基本行为分类、呼吸行为监测）的识别性能，准确率可达97%以上，但同时也带来参数量和计算成本的增加。

姿态估计与骨架建模方法

对于需要精确捕捉姿态细微变化的场景（如跛行），基于关键点检测的姿态估计方法展现出优势。这类方法通常分为两个阶段：首先利用OpenPose、HRNet等网络进行多关节检测与定位，随后将关键点序列输入时间网络或图卷积网络（GCN）进行动态建模和行为分类。研究表明，结合改进的Mask R-CNN与梯度提升算法（CatBoost）可实现高达98%的二元跛行检测准确率。基于YOLOv5和EfficientPose的架构可用于奶牛发情行为的实时检测。尽管姿态估计方法具有较好的可解释性和泛化能力，但仍面临高质量标注数据缺乏、复杂场景下遮挡和关键点漂移等挑战。

三维卷积与时空联合建模方法

三维卷积神经网络（3D-CNN）能够直接在卷积操作中同时考虑空间和时间维度，为视频级行为识别提供了自然优势。C3D和I3D是代表性模型。研究通过结合YOLOv3、3D-CNN与光流技术，成功识别了15种子行为类别。改进的Rexnet 3D、集成了SandGlass-3D模块与ECA注意力机制的E3D网络，以及对SlowFast模型进行3DCBAM注意力机制改进等方法，均在奶牛基本运动行为识别中取得了高准确率（95%-98%）。此外，基于3D点云的曲线骨架提取和混合PointNet++网络也在牲畜姿态分析和身份识别中展现出潜力。然而，3D卷积计算负载大、参数冗余，对边缘设备部署构成限制，且在建模长期依赖关系方面存在不足。

当前挑战与未来展望

尽管深度学习模型在实验环境中取得了高性能，但在走向实际农场部署时仍面临系统性障碍。当前挑战主要集中于三点：1. 数据标注与泛化挑战：行为数据集，尤其是异常行为数据稀缺，标注成本高昂。模型在特定数据集上表现良好，但在跨场景、跨品种的实际环境中泛化能力不足。2. 复杂环境干扰挑战：光照变化、牲畜间严重遮挡、高密度群体等因素会显著降低图像清晰度、干扰轨迹跟踪和姿态估计的稳定性。3. 行为结果的进一步量化：当前研究多集中于行为“是否发生”的判别，缺乏对行为过程、频率、持续时间等细粒度信息的系统量化，而这些信息对于全面评估动物健康至关重要。

未来方向应致力于弥合上述鸿沟：1. 应对数据稀缺与泛化：转向自监督学习（SSL），利用海量未标注行为数据预训练适用于畜牧任务的基础模型，以提升跨品种的鲁棒性，最终服务于AI驱动的遗传选育。2. 应对环境干扰：发展超越标准边缘设备的神经形态计算，实现超低功耗的连续现场监测，迈向无处不在的实时监控。3. 弥补量化差距：集成大语言模型（LLM）或视觉-语言模型（VLM），从简单识别转向语义量化，实现基于可操作洞察的、面向健康与生产率的预测性分析。同时，为确保临床相关性，这些先进AI模型的开发必须与兽医学紧密结合，使量化行为指标严格符合既定的动物行为学标准。最后，随着系统走向持续监控，必须解决数据所有权和隐私挑战，并确保AI系统在伦理上对齐，优先考虑动物福利与生产效率。

结论

本综述系统分析了牛行为识别技术的发展，强调了从人工观察到先进深度学习范式的转变。量化而言，这一转变带来了显著的性能飞跃：传统手工特征方法常因环境噪声而停滞在70-80%的准确率，而现代架构（如YOLO、Transformer）则 consistently 展示出超过0.90的平均精度均值（mAP）和实时推理能力（>30 FPS），为精准畜牧业设立了新标杆。然而，在微妙、细粒度行为的识别方面，与站立、躺卧等明显姿势相比仍存差距，且大多数先进模型在应对真实世界可变性（如极端光照、严重遮挡、跨品种域偏移）时的鲁棒性仍是区分学术成功与实际部署可靠性的持久挑战。总之，为推动牛行为识别技术的实际应用，未来研究需更注重提升模型泛化能力、提高部署水平及深化对行为的理解。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部