综述:超越单模态:精准畜牧业中多模态融合范式的系统性综述

时间:2026年5月24日
来源:Smart Agricultural Technology

编辑推荐:

技术驱动的精准畜牧业(Precision Livestock Farming, PLF)使从业者能够监测和分析动物生长与健康状态,从而提升生产效率与福利水平。然而,PLF的全部潜力尚未释放,单模态方法固有地受限于环境敏感性、数据稀疏性等挑战。多模态融合成为突破

广告
   X   

技术驱动的精准畜牧业(Precision Livestock Farming, PLF)使从业者能够监测和分析动物生长与健康状态,从而提升生产效率与福利水平。然而,PLF的全部潜力尚未释放,单模态方法固有地受限于环境敏感性、数据稀疏性等挑战。多模态融合成为突破这些局限的关键路径,但该领域目前缺乏系统性框架来整合其快速发展。本研究首次针对这一空白开展系统性综述,提出新的分类体系,对2019至2025年PLF领域的多模态融合研究进行分类。研究人员基于同构(如视觉-视觉、可穿戴传感器-可穿戴传感器)与异构(如传感器-声学-文本)融合范式构建独特分析框架,在调研的66篇文献中细致分析了牲畜物种分布与融合策略。分析表明,特征级融合占主导地位(73%的研究),同构融合占实施总量的68%,其中基于可穿戴传感器的方法尤为普遍。这些融合方法在个体识别、形态测量分析、行为识别、事件检测及疾病诊断等关键应用中展现出卓越的鲁棒性。除技术分析外,研究人员整理了可作为重要基准的开源多模态数据集,进一步提出了融合范式与策略选择的具体建议,并指出模态异质性与对齐、模态缺失、计算复杂度与效率等持续存在的挑战,同时阐述了潜在解决方案与新兴研究方向。通过将技术进步置于实际部署约束背景下,本综述旨在建立基础性参考,推动实用、可持续的多模态PLF系统发展,切实提升动物福利与生产效率。
  1. 1.
    引言
    精准畜牧业(PLF)通过先进数字技术实现对动物生长与健康状况的实时监测与分析,直接影响规模化养殖的生产效率、可持续性与动物福利。现代PLF系统部署多种传感技术采集不同模态数据,包括视觉数据(RGB、深度、热成像)、可穿戴传感器数据(加速度计、陀螺仪、全球导航卫星系统)及声学数据等。单模态方法虽在特定场景表现优异,但存在环境依赖性强、特征表征有限、难以捕捉个体差异、管理决策可靠性不足等局限,阻碍了全面的动物评估,亟需多模态融合以提升精准畜牧管理的鲁棒性、可解释性与决策可靠性。多模态融合通过整合互补的传感数据,已在缓解特征学习不足、区分相似生理状态、克服环境干扰等方面展现出显著优势。当前主流融合技术分为数据级融合、特征级融合、决策级融合与级联引导融合四类,但跨模态数据的异质性给高精度监测带来显著挑战。现有PLF综述多聚焦单模态应用,缺乏对多模态融合发展的系统性分析,因此亟需全面梳理该领域进展,明确优势局限与未来方向,推动多模态PLF系统从研究原型向规模化农业解决方案转化。
  2. 2.
    模态类型及其在PLF中的应用
    单模态技术是多模态PLF的基础,各模态在环境监测、行为识别、生理监测等任务中发挥特定作用。
    2.1 视觉模态
    视觉技术凭借非侵入式监测与空间信息丰富的特点成为PLF核心手段。RGB成像成本低、兼容性强,广泛用于个体识别、跟踪、计数、姿态与行为识别、体况评分(Body Condition Scoring, BCS)、呼吸频率监测及疾病检测,但对光照变化与遮挡敏感。深度成像通过测量物距实现三维空间分析,在体重估计与BCS中精度较高(R2> 0.97, MAPE = 3.9%),但易受反光表面、低对比度场景干扰。红外热成像通过检测表面温度分布实现无接触生理监测,可用于发情检测、热应激评估与乳腺炎诊断,但需环境噪声校准。3D成像重建物体三维表面模型,克服二维成像的光照与肤色误差,在体型测量与BCS中精度优于二维方法,但需多相机部署与高计算资源。点云通过激光雷达或深度相机获取离散三维坐标,保留精细几何细节,适用于高精度形态建模,但受动物移动、遮挡及分割难度限制,大规模部署复杂。综上,RGB擅长行为与姿态分析,三维传感主导体重、体型等形态计量任务,红外热成像专用于生理监测,体现了视觉技术的互补性。
    2.2 可穿戴传感器模态
    可穿戴传感器凭借小型化、低功耗特点实现实时监测,通常集成于耳标、颈圈或腿带中。运动数据以三轴加速度计为核心,通过滑动窗口分割与统计分析或深度学习处理,实现行为识别、跛足检测、发情与产羔事件识别,但难以区分相似行为(如采食与反刍)。地理位置信息通过射频识别(Radio Frequency Identification, RFID)、全球导航卫星系统(Global Navigation Satellite System, GNSS)与超宽带(Ultra-Wideband, UWB)获取,RFID支持低成本个体识别与采食行为监测,GNSS实现户外放牧追踪与虚拟围栏(准确率>90%),UWB提供厘米级室内定位,但均受环境干扰与基础设施成本限制。生理参数监测包括体温、心率与呼吸频率,可作为发情、热应激与疾病的生物标志物,但需融合多模态数据区分应激性喘息与正常体温调节。
    2.3 声学模态
    声学技术通过提取统计特征、图像化特征、原始信号或混合特征实现非侵入式监测。统计特征(如能量、过零率、梅尔频率倒谱系数)结合传统机器学习用于性别识别、发声分类与发情检测。图像化特征将声信号转换为频谱图等二维表示,适配卷积神经网络(Convolutional Neural Network, CNN)实现分层模式学习,在发声分类与行为识别中性能优越。原始信号端到端处理避免了手工特征工程,提升了噪声鲁棒性。混合特征融合多类特征信息,显著提升复杂环境下的鲁棒性,如猪咳嗽检测准确率可达90%以上。现有研究已实现对牛只采食、反刍、发情等行为的精细化识别,但需解决背景噪声分离与特征泛化性问题。
    2.4 文本模态
    文本描述包含兽医诊断的语义知识,早期基于规则的系统通过本体知识表示实现马病诊断(准确率88%),但存在可扩展性差、主观性强等局限。深度学习与知识图谱(Knowledge Graph, KG)技术的应用提升了诊断自动化水平,如融合奶牛疾病知识图谱的混合双向长短期记忆-卷积神经网络模型,通过显性与隐性症状特征联合学习,F1值达94.89%,较传统模型提升显著,但仍需解决文本主观性与临床表征不完整的问题。
  3. 3.
    多模态融合策略
    3.1 按融合阶段分类
    数据级融合在输入阶段直接拼接原始或预处理后的多模态数据,保留模态间原始关联,增强特征可解释性,适用于强相关模态。特征级融合独立提取各模态特征后,通过拼接、加权平均或降维等方式在中间层整合,灵活性高且对齐约束低;基于注意力机制的融合可动态加权各模态贡献,适应数据质量波动并提升可解释性。决策级融合对各模态独立建模,在最终决策阶段聚合预测结果(投票、平均或元学习器),对模态缺失与异步数据流鲁棒性强。级联引导融合首次被定义为层级架构,由一种模态的输出作为空间或结构先验,引导另一种模态的分析,可缓解单一传感器的局限(如深度传感器易受背景干扰),典型应用包括RGB引导的深度特征计算与深度引导的RGB区域分割。
    3.2 按数据同质性分类
    同构融合整合数据结构与物理原理相似的模态(如视觉-视觉、传感器-传感器),对齐难度低、兼容性高。异构融合整合数据表示与物理起源差异显著的模态(如视觉-可穿戴、视觉-声学),互补性强但面临对齐与同步挑战,适用于需综合态势感知的复杂任务。两种分类框架正交互补,阶段分类描述融合实现的架构层次,同质性分类描述融合对象的性质,共同构成PLF融合策略的选择依据。
  4. 4.
    精准畜牧业中的多模态融合
    研究人员对2019至2025年66篇PLF多模态文献进行分析,年度发文量呈显著上升趋势,2025年激增体现该领域的快速成熟。物种分布以牛为主(55%),其次为猪(19%)、鸡(9%),反映经济价值与传感器部署适配性的影响。融合策略以特征级融合为主导(73%),因其规避了数据级融合的严格时空对齐要求与决策级融合的跨模态交互不足;其余策略(数据级、决策级、级联引导融合)各占约10%,服务于特定场景。
    4.1 同构融合
    4.1.1 视觉基融合
    以RGB与深度或热成像的融合最为普遍。RGB-深度融合多采用级联引导方式,如用RGB分割掩码约束深度特征计算,消除背景干扰,实现牛只体重估计(MSE=735.4 kg)与猪只三维点云生成(mAP@0.5: 99.5%);也可采用注意力特征融合,通过跨注意力机制动态交互互补信息,提升猪体重估计精度(MAE=3.237)。RGB-热成像融合同样以级联引导为主,如用热成像分割目标区域后,通过RGB实例分割掩码提取体表温度,降低背景干扰(误差2.1°C)。近年发展出三模态及以上融合,如RGB-深度-热成像融合用于鸡羽毛损伤深度评估(R2=0.946, RMSE=2.015 mm),RGB-深度-点云融合用于牛羊体型重建(准确率91.95%/87.63%),有效克服了单模态局限。物种分布以牛为主(50%),融合策略中级联引导占47%,特征级占33%。
    4.1.2 可穿戴传感器数据融合
    最普遍的模态组合为运动与位置数据(18%),用于区分相似行为与放牧管理;惯性测量单元内加速度计、陀螺仪与磁力计的融合捕捉多维运动信息,提升行为识别精度;生理参数与运动数据融合则增强健康监测能力。融合策略以特征级为主(84%),如加速度计与GNSS特征融合实现牛行为识别(准确率88.29%);数据级融合直接将多传感器信号拼接为二维张量输入网络,适用于同质时序数据(如猪行为识别准确率>98%);决策级融合通过独立模型投票或后验验证提升鲁棒性,如用UWB位置数据校正加速度计的行为误判(R2=0.99)。物种以牛为主(58%),其余物种分布均匀。
    4.2 异构融合
    异构融合占调研文献的32%,以视觉模态为核心,与可穿戴传感器、声学或文本模态组合,弥补单模态覆盖局限。典型应用包括:RFID、水流量计与加速度计的决策级融合,实现牛饮水行为监测(准确率94%);声学、视频、加速度计与位置数据的特征级融合,通过自注意力机制优化隐马尔可夫模型,实现牛发情检测(准确率98.3%)。近年多模态基础模型的应用成为亮点,如视觉-语言模型通过指令微调生成动物视觉描述并结合外部知识检索,实现零样本物种识别(准确率较原生CLIP提升25%);结合文本与视觉提示的多模态大语言模型(Multimodal Large Language Model, MLLM)可实现猪行为计数(2.78/5)、主体指代(5/5)与时间感知(4.31/5)的细粒度分析;双分支Transformer架构融合视频、图像嵌入与大语言模型生成的文本描述,在动物行为识别基准上达到79.82% mAP。物种以牛为主(52%),融合策略以特征级为主(86%)。
    4.3 开源多模态数据集
    过去五年公开的多模态数据集以RGB-深度图像最常见(多采用Kinect v2相机采集),用于表型性状分析;可穿戴传感器组合多用于行为识别。数据集覆盖牛、猪、羊、鸡等物种,任务包括个体识别、体型测量、行为识别与疾病检测。现存局限包括:猪数据集个体数量少(仅8头)、标注样本稀缺、健康相关罕见行为与事件(如发情、产羔)数据集不足,未来需加强场景多样性与标注完备性。
  5. 5.
    多模态融合的战略建议与研究路线图
    5.1 融合范式选择
    同构融合适合结构化环境的结构化任务,如RGB-深度融合用于体型测量,加速度计与位置融合用于行为分类,计算负荷较低;异构融合适合动态环境的复杂多因素任务,如声学-视觉融合用于牧场发情检测,可提供丰富的上下文信息。
    5.2 情境感知的融合策略选择
    数据级融合适用于时空对齐紧密的同质视觉模态;特征级融合适用于采样率或结构格式不同的模态,支持注意力动态加权;决策级融合适用于模态可靠性波动大、需容错的系统;级联引导融合适用于需区域定位先验的视觉中心任务,但需防范引导模态的错误传播。未来应发展情境感知框架,根据实时数据质量与计算约束动态选择或组合融合策略。
  6. 6.
    其他挑战与未来方向
    6.1 模态异质性与对齐
    跨模态特征表示、采样率与语义粒度的差异导致对齐困难,现有交叉模态注意力、空间引导与特征级同步方法多假设受控条件,鲁棒性不足。未来需发展自适应对齐技术,如可微分动态时间规整、跨模态Transformer与知识蒸馏框架,提升真实场景下的对齐能力。
    6.2 模态缺失
    传感器脱落、环境干扰与电池限制导致模态缺失,训练-测试模态不匹配会严重降低模型性能。现有插补、生成与特征级鲁棒性方法各有适用场景:随机缺失且数据量少时适合插补,实时推理优先选特征级鲁棒性与注意力机制,离线分析可采用生成式方法与多模态大语言模型。需结合训练阶段缺失调度策略,缩小泛化差距。
    6.3 计算复杂度与效率
    多模态数据同步、高维特征融合与实时推理带来巨大计算开销,边缘设备部署受限于算力、能耗与带宽。解决方案需结合算法优化(数据压缩、轻量化骨干网络、超参数调优)、动态资源管理(按需调整采样率与传输策略)与新型能源技术(太阳能、动能收集),支撑可持续的边缘部署。
    6.4 模型专业化与泛化
    通用大基础模型缺乏PLF领域知识,存在幻觉与关键特征遗漏问题;模型在受限条件下训练,跨物种、年龄与环境部署时性能下降。专业化需通过指令微调适配领域知识,泛化需依托多条件数据集、局部-全局特征融合、开放集识别框架与环境传感器上下文整合,未来应扩大数据覆盖度与多样性,提升模型对生理变异与分布偏移的鲁棒性。
  7. 7.
    结论
    多模态融合通过互补传感技术的协同整合,实现了对动物健康与福利的全面监测,是PLF变革性发展方向。本综述系统梳理了视觉、可穿戴传感器、声学与文本四类核心模态的技术特性与应用边界,明确了单模态方法的局限性与多模态融合的必要性。通过对66篇文献的分析,揭示了同构融合(68%)与特征级融合(73%)的主导地位,验证了融合方法在体重估计、行为识别、发情检测等任务中的性能优势。研究人员整理的开源数据集为领域研究提供了基准资源,提出的融合范式与策略选择建议可为实际应用提供指导。尽管已取得进展,模态异质性与对齐、模态缺失、计算效率与模型泛化仍是核心挑战,未来需发展专用、鲁棒、高效的多模态系统,以适应畜牧业复杂多样的实际部署环境。多模态PLF技术的普及将推动可持续畜牧生产,显著提升动物福利水平。

生物通微信公众号
微信
新浪微博


生物通 版权所有