一种基于空间先验增强时序定位的三级框架用于生猪排泄行为精准识别

时间：2026年3月20日

来源：Smart Agricultural Technology

编辑推荐：

为解决生猪热红外视频中排泄行为因持续时间短、运动幅度小而导致传统时序动作定位模型识别困难的问题，研究人员提出了一种“目标检测-特征提取-时序定位”三级级联框架。该研究构建了目标检测与行为识别数据集，并基于YOLOv10实现高精度检测获取空间先验，再结合VideoMAE特征提取与ActionMamba网络，实现了对排尿、排便等关键行为的精准识别与持续时间定位。结果表明，融合空间先验后，排便行为的平均精度均值(mAP@0.5)从65.82%显著提升至78.42%。该框架有效提升了精细生猪行为识别的准确性与稳定性，为精准畜牧业中的猪群健康监测与行为分析提供了可靠的技术支持。

想象一下，在一个现代化的养猪场里，成千上万的猪只每天产生着海量的行为数据。其中，排泄行为（排尿和排便）不仅是基本的生理活动，更是反映猪只健康状况和环境舒适度的关键“晴雨表”。异常的排泄频率或形态往往是消化系统疾病的早期信号。然而，传统的监控方法，如人工观察，不仅耗时耗力且主观性强；而基于可见光的计算机视觉方法，在夜间或光照不足时便“失明”了，偏偏猪只在夜间的排泄频率还更高。更棘手的是，排泄行为本身持续时间短、动作幅度微小，在复杂的热红外视频背景（如漏缝地板）中，其特征极易被环境噪声淹没，导致现有的时序动作定位模型难以准确捕捉和界定其起止时间。那么，能否开发一种技术，实现全天候、自动化且高精度的生猪排泄行为监测呢？这正是发表在《Smart Agricultural Technology》上的一项研究所要攻克的核心难题。

为了破解这一瓶颈，研究人员独辟蹊径，提出了一种创新的“空间先验增强时序动作定位”三级级联框架。其核心思路是：既然猪有“分区排泄”的生物习性，倾向于在固定区域（如漏缝地板）排泄，那么已检测到的排泄物位置本身，就是预示该区域可能发生排泄行为的强有力线索（即“空间先验”）。利用这个线索去引导模型关注重点区域，不就能从纷乱的全局背景中“拎出”那些细微的动作变化了吗？基于此，研究团队构建了一个三级流水线：首先，用高性能目标检测模型YOLOv10在热红外图像中精准定位排泄物和猪的姿态，为后续分析提供关键的“空间路标”。然后，将这些带有空间标注信息的视频帧，送入基于掩码自编码器机制的视频特征提取模型（VideoMAE V2）进行编码，提取出富含时空动态信息的特征。最后，将这些经过空间先验“增强”后的特征，输入到时序动作定位网络ActionMamba中，最终输出行为的类别及其精确的起止时间点。这种方法如同为模型配备了一个“空间导航仪”，使其能更聚焦于关键区域，从而提升对细微动作的识别精度。

本研究主要运用了以下关键技术方法：1) 基于热红外成像技术的全天生境视频数据采集，构建了包含5类检测目标与5类行为（排尿、排便、采食、饮水、休息）的专用数据集；2) 采用YOLOv10模型进行高精度目标检测，获取排泄物与猪只姿态的空间先验信息；3) 利用基于掩码自编码器（MAE）机制的VideoMAE V2模型进行视频时空特征提取；4) 采用基于状态空间模型（SSM）的ActionMamba网络进行端到端的时序动作定位与分类。

3.1. 目标检测模型准确性及生猪行为空间分布验证

研究人员首先验证了“探路者”——YOLOv10目标检测模型的性能。结果显示，该模型在验证集上对粪便、尿液（细分在实体地板和漏缝地板上）及猪体（活动、躺卧）的检测，平均精度均值（mAP@50）达到了91.30%。特别是对活动猪和躺卧猪的识别精度极高（mAP>98%）。更有趣的是，通过将检测框进行空间聚合生成热力图，研究人员发现，模型预测的排泄高发区域高度集中在漏缝地板上，而休息区域则集中在实体地板上。这一发现与生猪“分区排泄”的自然习性完全吻合，不仅证明了模型检测结果的准确性，也直观展示了其用于评估猪舍环境与动物福利的潜力。

3.2. 不同特征学习策略对时序动作定位性能影响的实验对比

这是整个研究的核心验证环节。团队设计了渐进式的三组实验来检验其框架的有效性：第一组，使用在公开数据集（Something-Something V2）上预训练得到的通用特征，作为基线。第二组，使用在本研究自建的猪场行为数据集上训练得到的领域特征。第三组，在第二组的基础上，引入第一阶段YOLOv10检测到的排泄物边界框作为“空间先验”，对视频帧进行增强后再提取特征。三组特征分别输入相同的ActionMamba网络进行时序动作定位。

结果对比鲜明：使用公开数据集特征的模型，在tIoU=0.5的标准下，整体平均mAP为68.06%，对排便（d）行为的识别精度仅为32.66%。这揭示了跨领域特征迁移的局限性。当切换到自建猪场数据集特征后，性能大幅提升，整体mAP达到82.02%，排便行为的mAP提升至65.82%。这证明了领域特定数据对于学习生猪细微行为特征至关重要。最终，当引入“空间先验”后，模型性能达到顶峰，整体mAP进一步提升至84.19%，而排便行为的mAP实现了最显著的飞跃，从65.82%跃升至78.42%，排尿行为也从91.13%微升至92.06%。

为了深入理解性能提升的根源，研究采用了DETAD（Diagnosing Error in Temporal Action Detectors）诊断工具进行精细分析。分析表明，引入空间先验后，模型在“假阳性分析”中显著减少了将背景误判为动作的错误，并且降低了因边界定位不准而产生的“定位误差”。这证实了空间先验的核心作用是“优化”已检测到的候选动作的边界精度，并抑制背景干扰，而非主要提升“发现”全新动作（尤其是超短时动作）的能力。

3.3. 与先进方法的对比

为了证明所提框架的竞争力，研究将其与当前先进的时序动作定位模型（如ActionFormer、TriDet等）在自建数据集上进行了对比。在tIoU=0.5的标准下，本文的ActionMamba框架（84.19%）性能优于ActionFormer（83.22%）和TriDet（82.10%）。在更严格的tIoU=0.7标准下，优势更为明显。这凸显了引入空间先验对于提升在复杂背景下识别细微动作任务性能的有效性。

3.4. 在群养场景中的泛化性分析

一个好的模型不仅要在“单间”里表现优异，在“集体宿舍”中也要能hold住。研究将训练于单头猪数据的模型，迁移到包含5-6头猪的群养视频中进行测试。结果发现性能出现显著下降，排便行为的mAP@0.5仅为16.72%。分析指出，这主要源于严重的“领域鸿沟”：群养场景中猪只的严重遮挡、肢体交错以及复杂的社交互动，使得在单养“干净”数据上训练的特征提取器“看到”的是被严重污染和扭曲的特征，导致后续的定位模型难以准确工作。这指出了未来研究需要攻克的方向——开发适用于高密度、复杂交互场景的模型。

3.5. 三级推理流程的吞吐量分析

对于实际部署，速度是关键。研究测试了整套系统在NVIDIA RTX 4090 GPU上的处理速度。其中，负责特征提取的VideoMAE V2阶段是主要瓶颈（8.9 FPS），但整个流水线的综合处理速度仍达到约8.17 FPS。而实际猪场使用的热红外相机采集帧率约为1 FPS。因此，该框架的处理能力完全满足全天候实时在线监测的需求，具备部署到边缘设备应用的潜力。

研究结论与重要意义

本研究的核心结论是，所提出的“目标检测-特征提取-时序定位”三级级联架构，特别是“空间先验增强时序定位”策略，有效解决了传统时序动作定位模型在热红外视频中识别生猪细微排泄行为时面临的挑战。其重要意义体现在三个方面：

1.
精准健康监测：通过将排便行为的识别精度（mAP@0.5）显著提升至78.42%，该技术使得自动化、量化监测排泄频率和持续时间成为可能，为腹泻、便秘等消化系统疾病的早期预警提供了关键的技术工具。
2.
验证生物学规律：模型输出的空间分布热力图与生猪“分区排泄”的自然习性高度一致，这不仅验证了模型本身的可靠性，也使其成为一种评估猪舍环境卫生和动物福利的客观手段。
3.
具备实际部署可行性：8.17 FPS的处理速度远超实际数据采集速率，证明该框架能够满足猪场全天候、实时在线监测的需求，为精准畜牧业的智能化管理提供了落地的解决方案。

当然，研究也指出了当前框架的局限，如在多猪只、高遮挡的群养场景中性能下降，以及对超短时动作的“发现”能力仍有提升空间。未来的研究将聚焦于开发跨领域自适应算法以降低复杂环境的标注成本，并探索更强大的时空特征提取与交互感知模块，以实现在高密度养殖环境下对细微行为与社会性行为的精准区分与识别。这项研究为利用先进计算机视觉技术深入理解动物行为、保障动物健康与福利，开辟了一条充满希望的道路。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部