一种基于计算机视觉的端到端方法，用于从深度图像中预测羊的体重

时间：2026年5月17日

来源：Small Ruminant Research

编辑推荐：

埃沃顿·科斯塔·索萨 | 里卡多·德·安德拉德·利拉·拉贝洛 | 约瑟·林登贝格·罗查·萨尔门托皮奥伊联邦大学动物科学系，佩特罗尼奥·波尔泰拉校区，特雷西纳，64049-550，皮奥伊州，巴西 **摘要** 定期监测动物体重对于畜牧业管理至关重要；然而，传统的称重

埃沃顿·科斯塔·索萨 | 里卡多·德·安德拉德·利拉·拉贝洛 | 约瑟·林登贝格·罗查·萨尔门托
皮奥伊联邦大学动物科学系，佩特罗尼奥·波尔泰拉校区，特雷西纳，64049-550，皮奥伊州，巴西

**摘要**
定期监测动物体重对于畜牧业管理至关重要；然而，传统的称重方法使用秤不仅劳动强度大，而且对动物和人类都造成压力。为了解决这些挑战，人们探索了计算机视觉（CV）技术来通过图像预测动物体重。然而，目前针对绵羊的研究仍然存在准确性和泛化能力较低的问题。本研究采用从粗略到精细的研究方法，旨在开发更高效、非侵入性和可推广的小型反刍动物称重方法，评估了通过背部深度图像预测绵羊体重的准确性和泛化能力。提出了一种基于EfficientNet-B3网络的ConvNet方法，该方法以端到端的方式运行：自动定位动物，测量与预测最相关的特征，并估计绵羊的体重。模型性能通过决定系数（R2）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）进行评估。生成了显著性图来定性评估特征的相关性和模型的可解释性，并分析了结合不同农场图像对预测性能的影响。此外，使用基于广义线性混合模型（GLMM）的新方法研究了影响性能的因素（实验因素、动物因素和图像相关因素）。所提出的模型取得了有希望的结果，R2为0.97，MAE为1.68公斤，MAPE为6.74%，显示出与现有方法相当的性能。这些发现有助于推进小型反刍动物肉类的技术方法。

**1. 引言**
定期监测动物体重对于改善管理和处理决策至关重要，有助于降低畜牧场的死亡率并降低成本（Zhang等人，2025年）。体重可以被视为不同动物特征和行为的指标，如健康状况（Dohmen等人，2022年）和最佳屠宰时间（Bo等人，2023年），同时也有助于优化喂养策略，从而减少碳足迹（Chen等人，2025年）。多年来，已经提出了多种技术来提高动物称重的效率和准确性，从而减少使用传统秤所需的努力和时间，并便于更频繁地监测体重（Dohmen等人，2022年）。在过去的十年中，基于计算机视觉（CV）的图像重量预测技术尤为突出（Zhao等人，2023年）。这些方法通过应用回归模型来估计体重，其中预测变量对应于从图像中自动提取的特征。最近的研究，主要针对猪和牛，通过采用基于卷积神经网络（ConvNet）的现代方法取得了有希望的准确性（例如Li和Teng（2022年）、Hou等人（2023年）、Afridi等人（2024年）、Liao等人（2025年）以及Zhang等人（2025年）的工作；以及Meckbach等人（2021年）对猪的研究）。ConvNet因其能够准确捕捉图像中的空间关系而受到认可（Goodfellow等人，2016年），已被用于测量与动物体重相关的特征（如臀部高度、体长、胸宽、胸围、腹围），从而支持体重估计过程。相比之下，基于图像预测绵羊体重的方法仅取得了渐进式的进展——这一趋势与执行此任务的固有挑战以及小型反刍动物肉类行业日益增长的重要性形成对比，特别是在生产正在扩展的发展中地区，迫切需要可访问的技术驱动管理工具（OECD/FAO，2025年）。基于图像称量绵羊具有挑战性，因为毛色和羊毛因品种而异，而且由于动物的压力行为（如逃跑尝试、奔跑、跳跃等）会影响图像质量（Atkinson等人，2024年）。目前关于绵羊的研究，如Abdelhady等人（2019年）、Gurgel等人（2021年）和Sant’Ana等人（2021年）的研究，仍然主要依赖于传统的数字图像处理（DIP）技术，存在准确性和泛化能力较低的问题。相比之下，Marques等人（2025年）提出了一种基于U-Net网络架构的ConvNet方法，该方法能够从图像中明确分割动物，然后使用多个ConvNet模型提取用于体重估计的特征，取得了有希望的准确性，R2为0.92。这些研究有两个关键特点：它们依赖于明确的动物分割，并从RGB图像中提取的形态测量特征来估计体重。这种设计引入了两个主要限制：（i）由于关注毛色模式，模型往往针对训练数据变得专门化，可能无法很好地泛化到其他品种或多色动物；（ii）明确的分割需要严格且劳动密集的手动图像注释过程（Chen等人，2025年），使得在新农场部署成本高昂，因为必须为每个新群体重新训练模型。因此，本研究旨在提高通过图像预测绵羊体重的准确性和泛化能力。所提出的方法结合了EfficientNet-B3 ConvNet网络的效率和背部深度图像提供的3D表面信息，旨在自动定位图像中的动物并估计其体重，无需明确的分割步骤。从顶视角度获取的深度图像能够捕捉动物的形状和高度，这些特征与体重相关，并且受光照或动物颜色的影响较小（Meckbach等人，2021年），从而提高了预测的准确性和鲁棒性。这些图像是在两个有运动的动物的畜牧场外拍摄的，这是一种侵入性较小的策略，减少了动物的压力，从而有助于确保动物福利。由于回归模型在不同数据集上的表现可能存在显著差异，该方法在多个训练-测试分割下进行了评估，以评估其在不同毛色、农场和体重范围内的泛化能力。性能通过决定系数（R2）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）等指标进行定量评估，并通过生成显著性图进行定性评估，以确定训练模型是否能够精确定位动物并学习相关特征。此外，使用基于广义线性混合模型（GLMM）的新方法研究了影响性能的因素（实验因素、动物因素和图像相关因素）。

**2. 材料与方法**
本研究采用了精心设计的方法论，以确保对所提出方法的准确性和泛化能力进行严格可靠的评估，并研究最影响预测性能的因素。该方法包括七个主要阶段，如图1所示，并在以下部分进行描述。所有动物实验均按照巴西皮奥伊联邦大学（UFPI）伦理委员会（CEUA）审查和批准的协议（协议编号851/2024）进行。

**2.1. 数据采集**
在此阶段，在两个畜牧场收集了绵羊的深度图像及相关元数据。随后进行了定性视觉评估，仅保留了实验所需的相关图像，形成了数据集的第一个版本。

**2.1.1. 实验设置**
使用MS-A075V 3D飞行时间（TOF）相机模块（Sipeed，2022年）从背部顶视角度收集了移动绵羊的RGB、深度和红外（IR）图像。该模块以（240, 320, 1）的分辨率捕获深度图像，是Kinect或Intel Real Sense D系列设备的低成本替代品，这些设备在此类研究中最为常用，有助于为中小型畜牧场开发更便宜的产品。开发了一个名为cv-app的自定义平台来捕获图像，将其与动物的元数据关联起来，并支持数据集分析过程。深度图像中的像素值表示场景中物体到相机的距离。因此，当从背部角度获取时，深度图像隐含了关于动物高度的信息，可以有效地捕捉与体重显著相关的特征，如脊柱、肋骨和肌肉（Zhang等人，2025年）。此外，这类图像不受动物颜色的影响（Meckbach等人，2021年），即使动物在移动时也能获得高质量的3D测量结果（Sant’Ana等人，2021年），并且可以捕捉物体的3D表面（Hou等人，2023年）。这些特性有助于提高体重预测的准确性和鲁棒性。

**2.2. 数据收集**
在2025年1月24日至25日，在巴西Acauã-PI市的两个畜牧场（分别称为农场A和农场B）进行了三轮数据采集。选址和结构旨在模仿该地区农场常用的畜牧环境。第一次数据采集于2025年1月25日上午10:00至11:00在农场A进行。活动在一个通常用于各种处理程序的围栏中进行。该围栏由四个围栏组成，经过改造以适应实验（图2(a)）。在进行初步测试后，其中一个围栏的入口被改造成了一个长4米、宽80厘米的走廊，一侧使用1米高的塑料网，另一侧使用围栏围栏。在走廊中间，相机安装在1.95米高的金属结构上，以每秒60帧（FPS）的速率捕捉动物通过走廊时的图像（图2(b)）。实验期间天空晴朗，偶尔有云层出现。第二次数据采集也在2025年1月25日进行，但时间是在下午4:50至5:50之间，同样在农场B进行。活动也在一个通常用于各种处理程序的围栏中进行。不过，这个围栏已经有一个长10米、宽80厘米的固定走廊，相机基础设施就设置在这个走廊中，如图2(c)所示。实验期间，天空时晴时阴，光照条件良好。第三次数据采集于2025年1月26日上午10:00至10:30在农场A进行，走廊长度从4米增加到5米，宽度保持不变。这一修改是在观察到动物在走廊末端跳跃后进行的，这影响了图像的适用性。调整后，跳跃现象减少了。天空再次变得晴朗且阳光明媚。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像

图2. 数据采集的环境设置。(a) 在农场A中获取图像的围栏结构；农场B也使用了类似的布置。(b) 和 (c) 分别显示了在农场A和B中采集图像时羊群移动的通道。所有图像均为原始图像，归作者所有。

2.1.3. 数据集
在数据收集过程中，共获得了221只羊的图像、测量体重以及元数据（动物识别、性别、年龄、品种、羊毛覆盖率、体况评分和异常行为的发生情况），从而生成了包含16,938张深度图像的初始数据集。经过定性视觉评估后，排除了32只动物的图像：26只是因为在数据收集过程中跳过了通道，5只是因为cv-app平台出现问题，还有1只是因为记录的体重不一致。这一过滤步骤后，剩余14,627张深度图像，对应189只羊（农场A = 91只；农场B = 98只）。在后续阶段，只保留了动物完全出现在场景中的图像，从而生成了一个新的数据集，命名为dataset (v1)。

数据集分布的统计摘要见表1。每只羊的图像数量差异主要受其在数据收集过程中被相机捕捉到的时间影响，这很大程度上取决于其在通道中的移动速度。动物体型也是一个因素，因为较大的个体通常会产生较少的全身图像。图像数量异常多的异常值（见图3(a)）对应于那些在通道中间停下来或试图折返的动物。关于体重，图像大致均匀分布在5–55公斤范围内，尽管在20–30公斤和约50公斤之间观察到了较低的集中度（见图3(b)）。尽管如此，该数据集仍然被认为是多样且分布良好的，支持构建稳健的体重预测模型（Tu和Jørgensen，2023）。

表1. 数据集中每只羊的图像数量和体重的统计摘要（General列）以及按农场划分的统计摘要。

图3. (a) 数据集中每只羊的图像数量直方图。(b) 按体重分类的图像箱线图。黑点代表个别观察结果。

2.2. 数据集质量和相似性分析
鉴于图3(a)中观察到的图像数量异常多的情况以及图4中感知到的图像之间的相似性，对数据集中的图像质量和相似性进行了分析。

2.2.1. 质量分析
图像质量使用基于拉普拉斯算子的质量指数（QI）进行评估，该指数用于估计每张图像的高频内容。首先，将窗口大小为3的拉普拉斯算子（Gonzalez和Woods，2018）应用于原始深度图像（公式（1）），生成一个新的图像，其像素值表示与边缘相关的局部强度变化。然后计算QI作为该图像像素值的平均值（公式（2）。还评估了其他窗口大小（5和7），但没有观察到显著差异。较高的QI值表示更高的高频内容，因此噪声的可能性也更大。还计算了QI变异性指数（QVI）来评估同一动物图像之间的质量变异性。它定义为同一动物图像中QI的平均变异系数（CV），使用公式（3）计算得出。

(1)L(x,y)=∇²I(x,y)
其中：
•L(x,y) = 图像I中像素(x,y)处的拉普拉斯值；
•I(x,y) = 原始深度图像I中的像素(x,y)；
•∇² = 表示拉普拉斯算子。

(2)QIi=1/MN∑x=1M∑y=1N|Li(x,y)|
其中：
•QIi = 图像i的基于拉普拉斯算子的质量指数（QI）；
•M和N = 图像i的尺寸；
•Li(x,y) = 图像i中像素(x,y)处的拉普拉斯算子值；

(3)QVI=1/N∑j=1Nσjμj
其中：
•QVI = QI变异性指数；
•N = 评估的动物数量；
•σj = 动物j的图像的QI标准差；
•μj = 动物j的图像的QI平均值。

随后研究了QI与动物体重、农场、图像捕获时间和异常行为之间的关系。异常行为仅限于试图折返或逃跑的情况，因为跳跃的动物图像已被移除。首先使用皮尔逊相关系数评估了QI与这些变量之间的线性关联。然后使用广义线性模型（GLMM）评估了它们对质量指数的影响，该模型通过结合固定效应和随机效应来分析分层或分组数据结构（McCulloch和Searle，2001）。

体重、农场、捕获时间和异常行为作为固定效应进行建模，随机效应用于解释同一动物的重复图像捕获。使用对数链接的Gamma误差分布来适应数据不对称性。模型选择遵循（Zuur等人，2009）的方法：首先拟合包含所有主要效应的初始模型，然后评估成对交互作用，并使用赤池信息准则（AIC）和贝叶斯信息准则（BIC）比较模型。异常行为被视为二元变量（True/False）。捕获时间仅包括自午夜以来的时间（以分钟为单位）。例如，2025年1月25日11:05:35和2025年1月26日11:05:40的时间戳都被转换为值665（11 × 60 + 5）。模型使用R语言中的lme4包（v2.0-1；Bates等人，2015）进行拟合。

2.2.2. 相似性分析
使用均方根误差（RMSE）、结构相似性指数（SSIM）和感知哈希（pHash）来评估数据集内的图像相似性。RMSE测量两张图像之间的像素级差异（公式（4）。

(4)RMSEij=1/MN∑x=1M∑y=1NIi(x,y)−Ij(x,y)²
其中：
•RMSEij = 比较图像i和j时计算的RMSE指标；
•Ii(x,y)和Ij(x,y) = 图像i和j的像素(x,y)；
•M和N = 图像的尺寸；

与对轻微像素级失真敏感的RMSE不同，SSIM通过比较局部像素邻域来评估感知相似性，减少了小差异的影响，同时考虑了亮度、对比度和结构（Wang等人，2004）。SSIMij是通过计算图像i和j的所有对应像素的SSIMij(x,y)的平均值得到的（公式（5），其范围从-1到1，但实际值通常在0到1之间，较高的值表示更大的相似性。pHash方法通过比较从低频分量派生的紧凑哈希表示来评估频域中的相似性（Steinebach，2012）。相似性使用汉明距离（Hamming，1950）在哈希之间进行测量（公式（7）。

(5)SSIMij=(2μiμj+C1)(2σij+C2)(μi²+μj²+C1)(σi²+σj²+C2)
其中：
•SSIMij(x,y)：比较图像i和j的像素(x,y)时计算的局部结构相似性；
•μi和μj = 图像i和j的邻域中像素(x,y)的平均值；
•σ12和σ22 = 图像i和j的邻域中像素(x,y)的方差；
•σ12 = 图像i和j的邻域中像素(x,y)的协方差；
•C1和C2 = 稳定常数。

(6)SSIMij=1/MN∑x=1M∑y=1NSSIMij(x,y)
其中：
•SSIMij：比较图像i和j中所有像素时计算的结构相似性指数；
•M和N = 图像的尺寸；

(7)dH(hi,hj)=∑x=1nhi,x⊕hj,x
其中：
•hi和hj = 图像i和j的二元哈希；
•n = 哈希长度；
•⊕ = 表示异或运算。

在四种比较设置下计算了相似性指标，以捕捉数据集中的不同变异来源：总体、同一动物内、同一农场内和不同农场间。在总体设置中，从整个数据集中随机选择图像对，并以每张图像五次比较的比例进行相似性测量，总共进行了8860次重复。在同一动物内设置中，将属于同一动物的图像与其序列中的下一张图像进行比较。在同一农场内设置中，比较来自同一农场的图像，图像对也是随机选择的。保持每张图像五次比较的比例，农场A进行了2770次重复，农场B进行了6090次重复。最后，在不同农场间设置中，将农场B的图像与农场A的图像进行比较。图像对也是随机选择的，根据农场B的可用图像数量保持每张图像五次比较的比例，总共进行了6090次重复。

在所有设置中，图像都经过了最小程度的预处理。首先，定义了最大可接受像素值（maxV）为1950。因此，所有大于此阈值的像素值都被设置为maxV。由于深度图像中的像素值表示物体到相机的距离（以毫米为单位），而相机安装在1.95米的高度，所以大于1950的值被视为无效。此外，通过将每个像素值除以maxV来对深度图像进行归一化。RMSE、SSIM和pHash指标分别使用Python库NumPy（v2.0.2；Harris等人，2020）、scikit-image（v0.25.0；van der Walt等人，2014）和ImageHash（v4.3.2；Buchner，2020）计算得出。对于SSIM计算，采用了scikit-image的默认参数设置C1和C2，并使用了大小为11的邻域窗口，与Wang等人（2004）的配置一致。对于pHash计算，使用了64位的哈希大小。上述所有处理步骤、脚本和分析均可在Sousa等人（2026b）中找到。

2.2.3. 预处理
除了将像素值裁剪到maxV以上并对图像进行归一化外，还通过复制单通道内容将深度图像转换为三通道，以便使用预训练的EfficientNet-B3网络进行训练。这一步骤是必需的，因为该网络期望输入为三通道。最后，使用带有填充的调整大小技术将图像大小调整为（300, 300, 3），这种技术可以在不扭曲原始图像比例的情况下调整大小，特别是在将矩形图像调整为正方形分辨率时，如图5所示。因此，创建了一个修订后的数据集版本，并命名为dataset (v2)。从现在开始，任何对数据集的引用都指这个版本。没有进行显式的分割、背景去除或直接的形态测量，因为所提出的方法可以自动定位动物并估计羊的体重。

图5. 调整大小并添加填充技术的示意图。(a) 原始图像。(b) 从(240,320,3)调整大小到(300,300,3)的图像。保留了原始像素，并在顶部和底部添加了零值填充以匹配目标分辨率。为了便于可视化，像素值被重新缩放到0–255（原始范围：0–1950）。

2.3. 模型训练和评估
为了确保对预测准确性和泛化能力的可靠评估，数据划分、模型训练和模型评估阶段使用了相同的提出方法重复了八次（以下简称run-1至run-8）。由于ConvNet模型在不同数据下的表现可能会有显著差异，通过不同的训练和测试集组合来评估预测性能有助于提高泛化评估的可靠性，并允许更深入地分析方法的优点和缺点。

2.3.1. 数据划分
数据集被划分为训练集和测试集，前者用于拟合提出的ConvNet模型并调整其内部参数，后者用于在模型评估阶段测量性能指标。在run 1至run 4中，数据集的划分是基于动物识别代码随机进行的，比例为85:15，两个集合都包含来自两个农场的图像。在run 5中，训练集仅包含农场B的图像，而测试集仅包含农场A的图像。在run 6和run 7中，分别只使用了其中一个农场的图像，划分也是基于动物识别代码随机进行的。最后，在run-8中，使用20–35公斤范围内的图像组成测试集，其余图像用于训练。这个间隔代表了数据集中图像浓度最低的部分（图3(b)），有助于评估模型对其他体重范围动物的泛化能力。在所有执行过程中，来自同一动物的图像被分配到只有一个集合中，以确保性能评估的可靠性。2.3.2. 模型训练所提出的方法基于EfficientNet-B3预训练网络构建的2D ConvNet模型，其参数是从ImageNet数据集中确定的。EfficientNet-B3是EfficientNet系列中的一个网络，旨在使用相对较少的参数实现高精度（Tan和Le，2020年），适用于资源有限的设备，并能够处理RGB和深度图像中的复杂模式（Afridi等人，2024年）。选择B3变体是因为它使用（300,300,3）的图像分辨率，从而减少了原始图像（240,320,1）的缩放。模型架构包括没有输出层的骨干网络，并增加了四个用于回归的层（图6）。第一个添加的层是全局平均池化2D层，它在将数据传递给后续的密集回归层之前压缩了预训练基线网络产生的空间特征。第二个是具有relu激活函数的128单元密集层。第三个是Dropout（0.3）层，在每个训练步骤中随机将一部分输入单元设置为零。这种策略有助于模型学习更健壮的表示，防止过拟合并提高鲁棒性（Srivastava等人，2014年）。最终，输出层是一个只有一个单元的密集层，带有线性激活函数。这个端到端模型可以自动定位图像中的动物，识别并提取与预测最相关的特征，并估计羊的体重。模型训练使用增强的深度图像作为输入，并以测量的羊的体重作为目标。在训练过程中应用了即时增强技术，动态且随机地对图像进行垂直和/或水平翻转变换。因此，在训练之前不会生成新的图像，而是在每个训练周期向模型呈现原始图像的变体。这避免了过拟合，同时不会增加数据集在内存中的大小（Cerqueira等人，2024年）。下载：下载高分辨率图像（183KB）下载：下载全尺寸图像图6. 所提出模型的架构。它由预训练的EfficientNet-B3网络组成，不包括其输出层，并增加了四个用于回归的层：全局平均池化2D、密集层（128单元，ReLU）、Dropout（0.3）和密集层（1单元，线性）。由于训练数据有限，这可能会阻碍从零开始训练ConvNet模型，因此采用了迁移学习和微调方法，以均方误差（MSE）作为损失函数，Adam优化器（学习率=3 × 10-4）。模型训练使用交叉验证技术进行，其中每个训练周期使用80%的训练集来调整网络权重，20%用于验证。通过监控验证损失来使用提前停止策略，如果在连续15个周期内没有观察到超过1 × 10-4的改进，则停止训练，并将权重恢复到最佳周期的权重。此外，当验证损失停滞5个周期时，学习率减少了0.3倍，最小学习率为1 × 10-6。Dropout、学习率和提前停止参数是从常用默认值开始，并通过初步实验进行优化，提前停止遵循Prechelt（2012年）中描述的标准。2.3.3. 模型评估在测试集上计算了R2、MAE和MAPE指标，提供了更可靠的预测准确性和泛化能力评估。还使用拟合模型从测试图像生成了显著性图，从而可以定性检查学习到的特征，可视化最具影响力的图像区域，并评估模型在做出预测时是否关注动物（Simonyan等人，2014年）。模型训练和评估是在配备了NVIDIA NV167 GPU（4 GB VRAM）、16 GB RAM和第11代Intel® Core™ i7-11390H处理器的计算环境中进行的。所提出方法的实现和评估使用Python 3.12和Keras框架（版本3.8.0）以及tensorflow-gpu（版本2.18.0）作为后端进行。对于图像处理，使用了Pandas（版本2.2.3）、NumPy（版本2.0.2）和scikit-image（版本0.25.0）库。显著性图的可视化使用tf-keras-vis（版本0.8.7）库完成。整个流程作为补充材料在Sousa等人（2026c）中提供。2.4. 性能分析此阶段评估了在不同训练/测试集配置下的方法性能，以评估对不同毛色、农场和体重范围的泛化能力。首先，使用R2、MAE和MAPE以及测量体重和估计体重之间的皮尔逊相关性进行了定量分析。接下来，进行了更详细的分析，检查了估计体重的动物内变异性、不同体重范围内的误差以及基于平均估计体重的性能。最后，使用GLMM评估了实验因素、动物因素和图像相关因素对模型性能和变异性的影响。这些分析通过模型评估阶段生成的显著性图的定性评估进行了补充。2.4.1. 动物内估计体重的变异性为了评估动物内的预测变异性，计算了预测变异性指数（PVI）。该指数表示来自同一动物的不同图像的估计体重的平均CV（公式（8））。理想的模型表现出较低的预测变异性。（8）PVI=1N∑j=1Nσjμj其中：•PVI = 模型预测变异性指数；•N = 评估的动物数量；•σj = 动物j的图像的估计体重的标准差；•μj = 动物j的图像的估计体重的平均值。2.4.2. 按体重范围的误差相关性相对误差（Erel）是根据公式（9）计算的，表示预测误差与测量体重的相对重要性。一个好的模型应该对所有动物都表现良好，无论它们的体重如何。（9）Ereli=|Yiˆ−Yi|Yi∗100其中：•Ereli = 图像i的相对误差；•Yiˆ = 图像i的估计体重；•Yi = 图像i的测量体重。2.4.3. 使用平均估计体重的性能使用每个动物的单个估计值（公式（10）重新计算了性能指标（R2、MAE和MAPE），定义为平均估计体重，并分析了其对结果的影响。（10）Yˆmeanj=∑i=1njYˆijnj其中：•Yˆmeanj = 动物j的图像的估计体重的平均值；•Yˆij = 图像i和动物j的估计体重；•nj = 动物j的图像数量。2.4.4. 使用GLMM对模型预测和变异性的影响将TrainingSize、Representativeness、MeanTrainingSetQI、Weight、UnexpectedBehavior和ImageQI建模为固定效应，随机效应解释了同一动物的重复图像捕获。这些变量被定义为与实验、动物和图像相关的变异来源。前三个变量捕捉了训练和测试条件之间的差异；Weight和UnexpectedBehavior描述了特定于动物的因素；ImageQI反映了图像噪声水平。Erel（公式（9）和PVI（公式（8）被定义为响应变量，分别用于评估预测性能和模型变异性。使用Gamma误差分布和log链接来解释数据不对称性。模型选择也遵循了（Zuur等人，2009年）的方法。Representativeness定义为与预测图像相同体重类别的训练图像数量。由于体重分布的差距以及超过55公斤的动物数量有限（图3(b)），体重类别使用大约10公斤的间隔定义，上界范围较宽，以减轻数据稀疏性，同时保持有意义的分组：（0,10]、（10,20]、（20,30]、（40,55]和（55,99]。UnexpectedBehavior被建模为二元因素（True/False）。2.4.5. 定性分析通过视觉检查显著性图及其对应的二值化版本（以下简称Top-95% Saliency Mask）来评估模型在所有执行中定位动物的精度，其中值高于第95百分位的像素被设置为白色。这种二值化表示仅用于突出最显著像素形成的模式与动物形状之间的相似性，从而便于比较不同执行之间的分割性能。第95百分位阈值是基于视觉检查经验性定义的。3. 结果3.1. 数据集质量和相似性3.1.1. 图像质量分析如表2所示，农场A的图像比农场B的图像具有更高的QI和QVI值，表明同一动物的图像之间的噪声和变异性更大。无论是整个数据集还是农场内部，都没有观察到动物体重与QI之间的强相关性。相比之下，QI与图像捕获时间有很强的相关性；然而，当考虑所有图像时这种关系是负相关的，而当分别按农场分析时则表现出相反的方向。用于研究农场、图像捕获时间、动物体重和意外行为对QI影响的三个表现最好的候选模型在表3中呈现。模型C，以下简称QI分析模型（QAM），基于AIC、BIC和随机（动物）效应的估计方差分量显示出最佳拟合。表2. 计算的数据集中所有图像的QI和QVI的平均值。Pearson列报告了QI与动物体重以及图像捕获时间之间的相关性。QI值的数量级为10^3。图像QIQVIPearson (r)空单元MeanCI95%ValueCI95%WeightTime全部4.25 ± 1.434.18 – 4.312.84−15.00 – 97.900.14 ***−0.92 ***农场A3.91 ± 7.526.20 – 6.324.423.69 – 5.95−0.24 ***0.41 ***农场B3.03 ± 1.043.32 – 3.341.010.93 – 1.108.32 × 10-4−0.37 ***显著性代码：‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05。对于固定效应计算的估计系数及其显著性水平（表4）显示，农场和CaptureTime预测因子之间的交互作用对QI有显著影响（p值< 0.01）。因此，捕获时间对不同农场的QI影响不同：对于农场A，QI随时间增加，而对于农场B则观察到相反的趋势。在这项研究中，这种行为归因于数据采集期间的阳光照射。在农场A，图像是在上午10:00到11:00之间捕获的，随着收集的进行，阳光照射增加。相比之下，在农场B，图像是在下午16:50到17:50之间捕获的，此时阳光逐渐减少。捕获时间对每个数据采集阶段QI的影响可以在图7所示的效果图中可视化。表3. 三个表现最好的候选QAM的总结，包括误差分布（Family）、模型选择标准（AIC和BIC）以及随机效应的标准误差（SE）。指标名称旁边的箭头指示了最佳拟合的方向。模型方程在表格注释中详细说明。ModelDistributionAIC↓BIC↓随机效应（SE）↓AGamma (link=log)−9203.7−9165.30.92BGamma (link=log)−9204.0−9171.10.92CGamma (link=log)−9210.9−9172.60.89A = QI ∼ 1 + Farm + CaptureTime + Weight + UnexpectedBehavior + (1|AnimalID)。B = QI ∼ 1 + Farm + CaptureTime + Weight + (1|AnimalID)。C = QI ∼ 1 + Farm * CaptureTime + Weight + (1|AnimalID)。此外，预测因子Weight也对QI有显著影响（p值< 0.01），表明随着体重的增加，QI减小。UnexpectedBehavior在候选模型A中对QI没有显著影响，当移除它时模型拟合得到改善。表4. QAM的固定效应系数。表格报告了每个预测因子的估计系数、标准误差（SE）和t值以及p值。固定效应EstimateSET-valueP-valueIntercept0.321.350.230.81农场B−0.961.32−0.720.46CaptureTime−3.621.42−2.530.01 *Weight−0.490.16−3.00< 0.01 **农场B * CaptureTime4.491.463.07< 0.01 **显著性代码：‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05。下载：下载高分辨率图像（118KB）下载：下载全尺寸图像图7. 根据QAM获得的每个农场在捕获时间（一天中的分钟数）的预测QI值。线条代表模型预测，阴影区域表示95%置信区间。x轴上的0.35值表示正午。3.1.2. 图像相似性分析表5显示了在所有比较设置中计算的相似性指标值（RMSE、SSIM和pHash）。对于从整个数据集中随机抽取图像对的通用设置，结果表明相似性较低（SSIM < 0.85）。这个阈值基于Meckbach等人（2021年）。关于动物内比较设置，SSIM值表明同一动物的图像之间的相似性也很低。然而，尽管SSIM表明农场A的动物内部结构相似度较低（0.37），而农场B的相似度较高（0.65），但pHash却显示出相反的结果（农场A = 4.11；农场B = 14.56）。为了理解这种相反的现象，重要的是要考虑这些指标的工作原理。SSIM在空间域中工作，评估比较图像的小区域（邻域窗口）被相似元素占据的程度（Wang等人，2004年）。因此，它对场景中物体的姿势和空间位移变化更为敏感。相比之下，pHash在频率域中工作，对空间位移基本上不敏感，因为它测量的是图像之间低频模式的相似性（Steinebach，2012年）。基于此，本研究将它们解释如下：SSIM表明两幅图像在感知上的相似程度，反映了它们在视觉上可能被认为是相同的程度；而pHash表明图像共享相似元素或模式的程度，即使这些元素在图像中的空间位置不同。因此，两幅图像在空间域中可能非常不同，但在频率域中却相似，如图8中的图像所示。

表5. 所有比较设置下相似性指标（RMSE、SSIM和pHash）的平均值。指标名称旁边的箭头表示相似度增加的方向。

设置 | SSIM | RMSE | pHash |
|------|------|------|------|
| 空单元格 | 0.36 ± 0.17 | 0.36–0.36 | 7.37 ± 10 |
| 空单元格 | 0.36 | 5.28–9.46 | 11.77 ± 15.47 |
| 空单元格 | 0.57 ± 0.13 | 0.56–0.58 | 1.45 ± 35.88 |
| 空单元格 | 0.37 ± 0.04 | 0.37–0.38 | 4.89 ± 66.25 |
| 空单元格 | 0.65 ± 0.02 | 0.65–0.65 | 0.03 ± 0.00 |
| 空单元格 | 0.53 ± 0.15 | 0.53–0.53 | 2.90 ± 62.84 |
| 空单元格 | 0.30 ± 0.05 | 0.30–0.31 | 9.17 ± 112.15 |
| 空单元格 | 0.63 ± 0.25 | 0.63–0.63 | 0.04 ± 0.00 |
| 空单元格 | 0.24 ± 0.03 | 0.24–0.24 | 6.63 ± 94.76 |
| 空单元格 | 11.85 ± 15.42 | 11.52–12.17 |

关于农场内部和农场之间的设置，表5中的数值也表明同一农场的图像之间的相似度较低，同时SSIM和pHash对于农场A和农场B表现出相反的行为。然而，应该注意的是，当将农场间设置中计算的指标与其他包含两个农场图像的比较设置（一般、农场内部（全部）进行比较时，pHash的值保持一致，但SSIM显著下降。这一发现进一步证实了之前的观察结果，即图像在农场之间表现出结构上的空间差异，这些差异受到环境、动物和姿势的影响，但它们之间共享一致且具有抵抗性的元素和模式（图8）。

关于农场内部和农场之间的设置，表5中的数值也表明同一农场的图像之间的相似度较低，同时SSIM和pHash对于农场A和农场B表现出相反的行为。然而，应该注意的是，当将农场间设置中计算的指标与其他包含两个农场图像的比较设置（一般、农场内部（全部）进行比较时，pHash的值保持一致，但SSIM显著下降。这一发现进一步证实了之前的观察结果，即图像在农场之间表现出结构上的空间差异，这些差异受到环境、动物和姿势的影响，但它们之间共享一致且具有抵抗性的元素和模式（图8）。

下载：下载高分辨率图像（624KB）
下载：下载全尺寸图像

图8. 两张深度图像之间SSIM和pHash比较的示意图。图像（a）和（b）分别显示了农场A和农场B的动物。图像（c）显示了二值化的SSIM图（阈值=0.6），其中白色区域表示被认为是相似的区域。图像（d）展示了两张图像的频率密度分布；省略了图例以强调相似的频率模式。

表6. 数据集划分后的训练集和测试集组成。大小表示图像的数量。农场A和农场B表示每个农场的图像百分比。QI表示平均图像噪声水平（数值在10^3的数量级）。

运行 | 训练集 | 测试集 |
|------|------|------|
| 空单元格 | 157 | 83 | 1.12% | 68.88% | 4.2 ± 1.4 |
| 空单元格 | 149 | 73 | 0.46% | 69.54% | 4.2 ± 1.4 |
| 空单元格 | 144 | 43 | 5.11% | 64.89% | 4.3 ± 1.4 |
| 空单元格 | 144 | 35 | 3.64% | 64.36% | 4.4 ± 1.5 |
| 空单元格 | 155 | 028 | 71.55% | 4.1 ± 1.3 |
| 空单元格 | 121 | 8–100.00% | 3.3 ± 0.1 | 3.3 |
| 空单元格 | 98 | 7–100.00% | 3.3 ± 0.1 | 3.3 |
| 空单元格 | 98 | 7–100.00% | 3.3 | 3.3 |
| 空单元格 | 50 | 4 | 100.00% | –6.2 ± 0.7 |
| 空单元格 | 98 | 7–100.00% | 3.3 | 3.3 |
| 空单元格 | 50 | 4 | 100.00% | –6.2 ± 0.7 |
| 空单元格 | 98 | 7–100.00% | 3.3 | 3.3 |
| 空单元格 | 50 | 4 | 100.00% | –6.2 ± 0.7 |
| 空单元格 | 98 | 7–100.00% | 3.3 | 3.3 |
| 空单元格 | 50 | 4 | 100.00% | –6.4 ± 0.6 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |

考虑到前四次执行使用了整个数据集并且划分是随机进行的，运行-1的训练集图像数量最多，而运行-3的训练集图像数量最少（表6）。关于图像在农场之间的分布，它们的训练集显示出相似的模式，平均有31.28%的图像来自农场A，68.72%来自农场B。对于测试集，在运行1和2中，分布与训练集相似。另一方面，在运行-3中农场B的图像占主导地位，在运行-4中分布几乎相等。在运行-8中，有意不包含20至35公斤之间的图像，因此农场B的图像在训练集中更为普遍，而农场A的图像在测试集中占主导地位。运行-7的训练集图像数量最少（最多504张）。

关于图像质量，训练集的噪声水平在1至4次执行中是相似的，对于运行-8也是如此。尽管如此，运行-3显示出最低的平均测试集QI（3.7），而运行-8和运行-4显示出最高的QI（分别为5.0和4.8）。执行5和6的训练集噪声程度最低（3.3）；然而，它们在测试集中的噪声程度不同：在运行-5中，噪声水平大约是训练集的两倍（QI = 6.2），而在运行-6中，噪声水平保持相似（QI = 3.3）。运行-7的训练集和测试集的噪声发生率显著高于所有其他执行（QI = 6.2和6.4）。

训练集和测试集中按体重分布的图像分别在图9(a)和图9(b)中展示。总体而言，所有执行的训练集显示出一致的模式，图像（图表中的彩色点）在5至55公斤的体重范围内均匀分布，20至30公斤之间有一些体重间隙，大多数测试集的图像在相应的训练集中具有相似的体重。然而，也观察到一些偏离这种一般行为的情况：（i）运行-2的训练集不包括体重超过55公斤的图像，而相应的测试集包含这个范围内的图像；（ii）在运行-5中，测试集包括体重范围极端的图像（低于8公斤和高于50公斤），这些图像在训练集中没有；（iii）有一些来自农场A的公羊的图像，其体重超过80公斤（在图表上标记为异常值），但在使用该农场数据的所有执行中，这些图像仍然存在于训练集中，除了运行-5。

下载：下载高分辨率图像（353KB）
下载：下载全尺寸图像

图9. （a）训练集和（b）测试集中按体重分类的图像箱线图。彩色点表示单个图像；红色和蓝色分别对应农场A和农场B。

3.3. 预测性能
模型在所有执行中显示出相似的拟合模式，如图10所示：训练损失快速收敛，验证集上的稳定速度稍慢。值得注意的是，在任何执行中都没有观察到过拟合现象，这突显了本研究采用的模型架构和学习策略的有效性，包括Dropout、Early stopping和学习率调度。图10显示了运行-1的损失曲线，所有曲线都在补充材料A.19中提供。如表7所示，运行-7的训练集最小，训练QI最高，因此收敛时间比其他运行更长（57个周期）。

关于性能，在运行-5、运行-7尤其是运行-8中观察到训练集和测试结果之间存在显著差异，这强调了在评估模型准确性和泛化能力时依赖测试集指标的重要性。因此，仅考虑测试集指标，运行-1取得了最佳结果，R2、MAE和MAPE分别为0.95、2.10公斤和10.80%（表7）。运行4和6也获得了与运行-1相似的R2值，但MAE和MAPE较高。运行-5、运行-7尤其是运行-8的表现最差。还可以注意到，农场B的模型性能在所有执行中都优于农场A（表8）。

下载：下载高分辨率图像（135KB）
下载：下载全尺寸图像

图10. 运行-1的训练（橙线）和验证（蓝线）损失曲线随周期的变化，显示训练损失快速收敛，验证损失在第30个周期后稳定。

表7. 考虑所有执行的指标R2、MAE和MAPE的预测性能。训练集 | 测试集
|------|------|
| 空单元格 | 430.93 | 2.47 | 9.73 | 0.95 | 2.10 |
| 空单元格 | 420.91 | 2.83 | 11.24 | 0.91 | 2.46 |
| 空单元格 | 340.92 | 2.83 | 10.88 | 0.91 | 2.46 |
| 空单元格 | 440.93 | 2.46 | 9.68 | 0.95 | 2.28 |
| 空单元格 | 310.91 | 2.79 | 10.65 | 0.66 | 6.71 |
| 空单元格 | 370.87 | 3.00 | 13.44 | 0.93 | 2.28 |
| 空单元格 | 570.83 | 3.64 | 11.61 | 0.61 | 7.22 |
| 空单元格 | 290.93 | 2.53 | 9.86 | –0.56 | 5.22 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |
| 空单元格 | 155 | 028 | 71.55% | 4.1 ± 1.3 | 4.1 – 4.2 |
| 空单元格 | 225 | 0.90% | 49.10% | 4.8 ± 1.5 | 4.6 – 5.0 |
| 空单元格 | 121 | 8–100.00% | 3.3 ± 0.1 | 3.3 |
| 空单元格 | 54 | 100.00% | –6.2 ± 0.7 | 6.2 – 6.3 |
| 空单元格 | 98 | 7–100.00% | 3.3 ± 0.1 | 3.3 |
| 空单元格 | 50 | 4 | 100.00% | –6.2 ± 0.7 | 6.1 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |
| 空单元格 | 154 | 22 | 6.50% | 73.50% | 4.1 ± 1.3 |

图9(a)和图9(b)分别展示了训练集和测试集中按体重分类的图像分布。总体而言，所有执行的训练集显示出一致的模式，图像（图表中的彩色点）在5至55公斤的体重范围内均匀分布，20至30公斤之间有一些体重间隙，大多数测试集的图像在相应的训练集中具有相似的体重。然而，也观察到一些偏离这种一般行为的情况：（i）运行-2的训练集不包括体重超过55公斤的图像，而相应的测试集包含这个范围内的图像；（ii）在运行-5中，测试集包括体重范围极端的图像（低于8公斤和高于50公斤），这些图像在训练集中没有；（iii）有一些来自农场A的公羊的图像，其体重超过80公斤（在图表上标记为异常值），但在使用该农场数据的所有执行中，这些图像仍然存在于训练集中，除了运行-5。

下载：下载高分辨率图像（353KB）
下载：下载全尺寸图像

图11. 所有执行中模型拟合优度的图形表示。运行1、4和6在所有体重范围内都获得了更好的拟合，显示出最高的相关性值（r = 0.98）。这些执行中的数据点更接近最佳拟合线（图表中的红线），并且通常同一动物的图像的最高和最低估计值之间的幅度较小。运行2和运行7的模型倾向于低估体重超过40公斤的动物的体重。在运行5中，体重范围的极端情况下拟合效果较差。此外，大多数动物的估计体重与测量体重不同，无论是运行1还是运行4。

下载：下载高分辨率图像（143KB）
下载：下载全尺寸图像

图12. （a）所有执行中绝对误差和（b）相对误差按体重类别的分布。

图12显示了预测误差按体重类别的分布，并表明，正如预期的那样，绝对误差随动物体重的增加而增加（图12a）。相反，相对误差在各个类别中大致保持一致，除了（55,99]区间，其变异性最低（图12b）。由于去除了尺度依赖性，后续分析完全基于相对误差。

表9. 用于研究与相对误差相关因素的三个表现最佳的候选模型在表9中呈现。模型A（以下简称Error Analysis Model，EAM）基于AIC、BIC和随机（动物）效应的估计方差分量显示出最佳拟合。EAM计算的估计系数及其显著性水平在表10中报告。代表性（p值< 0.1）和体重（p值< 0.001）对相对误差有显著影响，随着它们的增加而减少。相反，ImageQI（p值< 0.1）与相对误差呈正相关。TrainingSize和MeanTrainingSetQI之间的显著交互作用表明后者的效应随训练图像数量的变化而变化。如图13所示，MeanTrainingSetQI的增加减少了误差，特别是在较大的训练集中效果更为明显。

表10. 模型EAM的固定效应系数。表格报告了估计系数、标准误差（SE）和t值以及p值。

表10. 固定效应
| 预测集 | 测试集 |
|------|------|
| 截距 | –2.01 | 0.31 | –6.33 | <0.00 *** |
| TrainingSize | 1.53 | 0.48 | 3.14 | <0.00 ** |
| MeanTrainingSetQI | 0.76 | 0.34 | 2.21 | 0.02 * |
| Representativeness | –0.29 | 0.17 | –1.69 | 0.08 |
| ImageQI | 0.34 | 0.21 | 1.65 | 0.09 |
| Weight | –2.31 | 0.33 | –6.94 | <0.00 *** |
| TrainingSize * MeanTrainingSetQI | –3.84 | 0.92 | –4.15 | <0.00 *** |

表10. 固定效应系数
| 预测集 | 测试集 |
|------|------|
| 截距 | –2.01 | 0.31 | –6.33 | <0.00 *** |
| TrainingSize | 1.53 | 0.48 | 3.14 | <0.00 ** |
| MeanTrainingSetQI | 0.76 | 0.34 | 2.21 | 0.02 |
| Representativeness | –0.29 | 0.17 | –1.69 | 0.08 |
| ImageQI | 0.34 | 0.21 | 1.65 | 0.09 |
| Weight | –2.31 | 0.33 | –6.94 | <0.00 *** |

图13. MeanTrainingSetQI对训练集大小范围内相对误差的影响。图表中的刻度已标准化；图例中的0.35、0.7和1分别对应最多550张、1269张和1578张图像的训练集。

表11. 所有执行中预测变异性的分布。没有观察到模型性能与预测变异性的明确关系（表7）。尽管预测准确性很高，但第1和第6次运行的预测性能仍然表现出最高的PVI值，仅低于第7次运行。相比之下，第5次运行的预测性能较差，但其变异性最低。对于农场B，所有运行的预测变异性始终较低。表11显示了所有执行的模型预测变异性指数（PVI）。列“所有动物”表示从整个数据集计算出的PVI，而“农场A”和“农场B”表示从每个农场计算出的PVI。

表11. 所有执行的模型预测变异性指数（PVI）
| 运行 | 所有动物 | 农场A | 农场B |
|------|--------|------|------|
| 运行1 | 9.79 ± 6.35 | 7.39 – 12.21 | 12.84 ± 7.26 |
| 运行2 | 8.21 ± 5.27 | 6.16 – 10.25 | 9.73 ± 5.86 |
| 运行3 | 8.59 ± 4.89 | 6.69 – 10.48 | 9.22 ± 4.98 |
| 运行4 | 8.11 ± 4.53 | 6.35 – 9.87 | 8.62 ± 4.50 |
| 运行5 | 6.83 ± 5.61 | 5.66 – 8.00 | 6.83 ± 5.61 |
| 运行6 | 9.58 ± 4.56 | 6.31 – 12.83 | 9.58 ± 4.56 |
| 运行7 | 14.32 ± 9.27 | 7.19 – 21.44 | 14.32 ± 9.27 |
| 运行8 | 8.20 ± 7.85 | 5.54 – 10.85 | 9.22 ± 8.53 |

4.1.1 主效应
表12列出了用于研究预测变异性相关因素的三个表现最佳的候选模型。模型C（以下简称为变异性分析模型VAM）基于AIC、BIC和随机（动物）效应的估计方差分量显示出最佳拟合。VAM计算出的固定效应的估计系数及其显著性水平见表13。预测因子“MeanTrainingSetQI”和“Weight”对PVI有显著的主效应（p值<0.001）。较高的训练集噪声和较低的“Weight”与预测不稳定性的增加有关。观察到“TrainingSize”和“ImageQI”之间存在显著的交互作用。如图14所示，在训练集较大且异质性较高的运行中（即运行1至4和运行8），ImageQI对变异性的影响更强，导致随着ImageQI的增加，变异性急剧上升。对于依赖单一农场数据的运行5和6，ImageQI的影响较弱，但方向相同。相比之下，在数据集最小的运行7中，ImageQI与变异性呈负相关。最初测试了“Representativeness”和“UnexpectedBehavior”这两个预测因子，但未显示出显著效应。

表12. 三个表现最佳的候选VAM的总结，包括误差分布（Family）、模型选择标准（AIC和BIC）以及随机效应的标准误差（SE）。指标名称旁边的箭头表示最佳拟合方向。模型方程的详细信息见表格注释。

表13. VAM的固定效应系数
| 固定效应 | 估计值 | 标准误差（SE） | t值 | p值 |
|--------|---------|-----------|--------|-------|
| Intercept | -0.10 | 0.15 | -0.67 | 0.49 |
| TrainingSize | -1.42 | 0.09 | -15.32 | <0.00 *** |
| ImageQI | -2.19 | 0.19 | -11.12 | <0.00 *** |
| Weight | -2.20 | 0.34 | -6.47 | <0.00 *** |
| MeanTrainingSetQI | 0.88 | 0.05 | 16.22 | <0.00 *** |
| TrainingSize * ImageQI | 2.96 | 0.20 | 14.42 | <0.00 *** |

4.3.6 使用平均估计权重进行性能评估
使用平均估计权重计算的性能指标显示，在运行1、3、4、7和8中有了显著改进（表14）。例如，运行1的R2提高了2%，MAE提高了20%，MAPE提高了37%。相比之下，使用平均估计权重会导致运行2、5和6中的误差增加。

图14. ImageQI对不同训练集大小下预测变异性的影响。刻度已根据模型拟合进行标准化；图例中的0.35、0.7和1分别对应于最多550张、1269张和1578张图像的训练集。

4.4. 模型分割检查
图15、图16、图17和图18展示了显著性图和前95%显著性掩码，突显了模型在不同执行中识别与体重最相关的动物区域的精确度。通过对代表性图像的定性检查，并结合GLMM结果，本节评估了模型在无需显式分割的情况下定位动物和估计体重的能力。前三个场景（图15、图16、图17）考虑了在测试集中多次出现且性能较低的运行5、7和8中相对误差最大的图像。最后一个场景（图18）将运行6的性能与在多农场数据集上训练的模型进行了比较。

图15展示了农场A中一只低体重动物（8.8公斤）在运行4和5中的图像。尽管噪声水平相对较高（QI>6.1），运行4的相对误差较低（Erel<3.1%），而运行5的表现较差（Erel>100%）。在运行4中，最显著的像素集中在动物身上，形成了与其形状一致的模式。相比之下，运行5的显著性分布较为分散，更多相关区域位于动物之外。值得注意的是，模型似乎更关注围栏柱而不是动物本身（如运行5的前95%掩码所示）。根据GLMM的结果（表10），运行5的性能不佳可能是由于训练集较小以及训练期间背景不同所致。此外，图像噪声可能进一步阻碍了定位，如图14中前95%掩码中的分离区域所示。图16展示了农场A中两只动物（15.1公斤和38.9公斤）在运行4、5和7中的图像。运行4的相对误差最低，并且显著性最集中，前95%掩码与动物形状非常吻合。运行5再次强调了围栏柱，但在图像3中的定位更好，误差更低。这与GLMM的结果一致，表明动物体重也影响了模型性能。尽管运行7的像素集中度高于运行5，但即使仅使用同一农场（农场A）的数据进行训练，其性能也未超过运行4。

4.5. 讨论
本研究评估了一种端到端计算机视觉方法预测羊体重的准确性和泛化能力，并研究了影响预测性能的因素。该方法基于EfficientNet-B3架构，无需显式分割或注释即可自动定位动物并估计其体重。数据集来自两个有动物运动的畜牧场。预测准确性通过R2、MAE和MAPE进行评估。通过多次训练-测试分割评估了不同毛色、农场和体重范围内的泛化能力。使用基于GLMM的方法分析了主要的变化来源（实验、动物和图像相关因素）。最后，通过检查显著性图来验证模型是否能够准确定位动物并捕捉相关特征。

4.1. 预测性能
鉴于一致的拟合模式（图10；补充图A.19）和取得的预测性能（表7、表14），所提出的方法能够有效识别与体重最相关的动物区域，捕捉其非线性关系，产生准确的估计，并泛化到未见过的动物，前提是它接触到足够质量和数量的数据。如图15、图16、图17、图18所示，即使在相对误差较高或姿势不寻常的情况下（例如，身体扭曲），模型主要关注动物像素，尽管在训练数据较少的运行中（特别是运行5和7），显著区域会扩展到动物之外。因此，结果表明模型捕捉到了真实的物理体重相关因素而非噪声。

图15、图16、图17、图18表明，即使在相对误差较高或姿势不寻常的情况下，模型也能主要关注动物像素。尽管如此，这些结果仍然表明模型能够捕捉到真实的物理体重相关因素。主要效应在预测性能和变异性中的作用
基于GLMM的方法用于评估实验因素（TrainingSize、Representativeness、MeanTrainingSetQI）、动物因素（Weight、UnexpectedBehavior）和图像相关因素（ImageQI）对相对误差和预测变异性的影响，这有助于解释模型在不同运行中的显著差异（表7）。Representativeness被定义为与预测样本具有相同重量范围的训练图像数量，它被证明是提高预测准确性的重要因素，因为随着Representativeness的增加，相对误差会降低（表10）。然而，它并没有显著影响预测变异性。这些发现表明，训练集应包括与目标动物具有相似几何图案（即形状）的图像。动物体重也会影响模型性能，较大的动物与较低的相对误差和减少的变异性相关。这表明模型在分割和估计较小动物的体重时遇到更大的困难，特别是在高噪声条件下以及训练数据有限的情况下。

然而，对运行性能影响最大的因素是图像噪声，在本研究中，图像噪声与图像采集期间的阳光照射有关（表4）。平均训练集QI对预测稳定性有显著影响，随着其增加，变异性也会增加，这解释了在两个农场的数据上训练的运行（运行1-4和8）中观察到的较高变异性。关于预测性能，它与TrainingSize的交互作用值得注意。图13显示，随着MeanTrainingSetQI的增加，相对误差降低，对于较大的训练集来说这种效果更为明显。这种效应不应被解释为噪声的结果——尽管变量名称可能表明如此——而主要是由于环境和动物的多样性增加。因此，当将两个农场的数据纳入训练集时，性能得到改善，尽管噪声水平较高（运行1-4和8）。同样，预测图像的噪声水平也导致了较高的相对误差（表10）和预测变异性（表13）。关于变异性，它与TrainingSize的交互作用也值得注意，表明ImageQI在较大的训练集中增加了预测的不稳定性（图14）。

因此，训练集的大小至关重要：它与Representativeness有叠加效应，减轻了图像噪声对变异性的影响，并放大了环境和动物多样性对预测性能的影响。值得注意的是，意外行为（即试图转身或逃跑）对相对误差、变异性或图像噪声没有显著影响。

4.1.2. 不同农场之间的预测性能
农场A的性能和变异性比农场B差，主要是由于农场A的图像质量较低，因为农场A的噪声水平较高（表2）。然而，如前所述，当训练集包括来自两个农场的数据时，农场A的动物性能有所提高，与仅在单个农场训练的运行（运行5和运行7）相比。这表明，即使对于农场A的动物，纳入农场B的数据也增强了模型的预测能力。相反，农场B的性能在所有执行中都相对稳定，无论训练数据是否包括来自两个农场的数据或仅来自农场B的数据，这表明农场A的较低质量数据并未对农场B的准确性产生不利影响。

4.1.3. 使用平均估计体重作为提高性能的策略
使用所有羊的图像的平均估计体重可以提高模型性能，特别是在运行1和4中（表14）。这些发现表明，利用捕捉姿势变化的多张图像与使用一张稳定动物的图像一样有效。此外，这种方法侵入性较小，因为图像是在动物移动时获取的，便于在畜牧场中实际应用。然而，平均化仅在模型对同一动物产生过高和过低估计的运行中有效，这表明其采用应谨慎评估。

4.2. 模型泛化分析
结果还表明，模型从训练集中学习了有意义的模式，并能泛化到以前未见过的样本。然而，应分别分析本研究中考虑的变异来源。根据在完整数据集上训练的模型的性能以及深度图像在表示动物形状方面的有效性——无论颜色如何——可以推断模型能够泛化到不同的毛色和图案。这一点得到了数据集组成的支持，该数据集包括来自多个农场的混种动物，这些动物在开放环境中以不同的姿势被捕获。关于泛化到未见过的体重范围，模型无法超出训练分布进行推断。在运行2中，训练集中没有60-70公斤范围内的图像，而测试集中有（图9(b)），因此错误率很高，表明在未见过的模式上的性能较差。这表明该方法主要泛化到与训练期间观察到的形状相似的动物。在运行5中也观察到了类似的模式，在极端情况下性能明显较差，因为训练数据缺失；运行8也显示出类似的较差性能。这些结果（图11）突出了端到端方法与分离身体测量和体重估计的方法相比的局限性。例如，Liao等人（2025）表明，基于ConvNet的早期图像的身体测量可以预测后期的体重。总体而言，在未见过的体重范围上的表现不佳表明其外推能力有限。最后，当模型在不同农场之间泛化时（例如，运行5），性能较差，表明需要同时接触动物体重模式和特定农场的环境条件。

4.3. 实际应用中的考虑因素
目前的发现表明，从一个农场学到的知识可以转移到另一个农场，即使目标农场包括具有不同毛色或混种动物的动物。然而，在新农场中的强预测性能取决于两个主要因素：（i）存在与训练期间观察到的形状相似的动物；（ii）一个校准阶段，其中纳入新牛群的样本，使模型能够适应其特定特征。将更多模式和环境纳入单个模型往往会创建网络效应，随着新数据的添加，所有用户都会受益。随着数据集的增长，每次新部署所需的样本数量预计会减少，从而减少时间和精力——特别是对于小型牛群——因为不需要为每个地点构建完全专用的数据集。然而，根据本研究中的数据，无法确定是否总是需要为新农场进行校准，或者模型最终是否可以在没有这一步的情况下部署。无论如何，这种端到端方法的一个关键优势是，即使需要校准，所需的努力也减少了，因为不需要手动图像注释，分割直接由模型完成。

此外，阳光对图像质量的影响限制了该方法在户外环境中的适用性，特别是在温度高或照明变化较大的地区。因此，可能需要基础设施调整——特别是在小型农场——以防止设备直接暴露在阳光下。因此，评估照明校正方法（如Li和Teng（2022）提出的方法）是必要的。

4.4. 限制
本研究的主要限制是数据集的大小。尽管图像的空间相似性较低，深度数据准确捕捉了动物形状，但有限的样本量限制了在GLMM中包含额外的预测因子（如体况评分和羊毛水平），并阻止了三因素交互作用的收敛。此外，尽管数据集包括混种和多色羊的图像，但它们的表型特征主要类似于Dorper和/或Santa Inês羊毛品种。因此，它不包括Merino、Rambouillet或Corriedale等羊毛品种，也没有考虑与剪毛状态相关的变异。纳入更多表型多样的数据可以提高模型的泛化能力和结果的可靠性。

图像噪声——特别是在农场A——引入了分析中的变异性，并影响了分割和估计性能。因此，应在受控环境中研究图像采集期间的环境因素（如照明、阴影和农场特定条件），以更好地评估它们对深度图像质量的影响。用于从数据集中移除不合格图像的定性视觉评估是另一个重要限制。随着数据集的增长，手动验证变得不切实际，需要自动化程序（例如，帧选择脚本）。最后，依赖于俯视深度图像使得模型性能对意外行为（如跳跃和奔跑）非常敏感。

4.5. 未来工作
未来的工作将评估数据增强技术（特别是深度图像恢复）以及注意力机制集成对预测性能和动物定位准确性的影响。未来的研究还应纳入具有不同羊毛覆盖程度的品种的数据，以更好地评估模型的鲁棒性和对更广泛表型多样性的适应性。此外，还将在轻量级、低功耗设备上评估模型的计算性能，以支持适合农村生产者实际应用的解决方案的开发。

5. 结论
基于计算机视觉的技术用于预测动物体重提供了一种间接且非侵入性的方法，可以减少称重所需的人工和时间，并支持更频繁地监测动物。然而，从图像预测羊重量的方法仍然侧重于传统的图像处理技术，并且存在准确性和泛化能力低的问题。本研究提出了一种基于EfficientNet-B3基线网络的高效ConvNet方法，并定量和定性地评估了其在预测羊体重方面的性能。结果令人鼓舞，表明所提出的模型采用端到端方法并结合跨农场背侧深度图像，实现了比当前研究更高的准确性（R2 = 0.97和MAPE = 6.74%）和有希望的泛化能力。尽管对泛化进行了严格评估，但数据集应包括更多表型和环境多样性，以进一步提高结果的鲁棒性。在未来的工作中，将评估一些新的数据增强技术和模型架构的调整，以及该方法在轻量级、低功耗设备上的计算性能，目标是开发出适合农村生产者实际应用的解决方案。

5. 结论
基于计算机视觉的技术为预测动物体重提供了一种间接且非侵入性的方法，减少了称重所需的人工和时间，并支持更频繁地监测动物。然而，从图像预测羊重量的方法仍然依赖于传统的图像处理技术，并且存在准确性和泛化能力低的问题。本研究提出了一种基于EfficientNet-B3基线网络的高效ConvNet方法，并定量和定性地评估了其在预测羊体重方面的性能。结果令人鼓舞，表明所提出的模型在端到端方法中运行并结合跨农场背侧深度图像时，实现了比现有研究更高的准确性（R2 = 0.97和MAPE = 6.74%）和有希望的泛化能力。尽管对泛化进行了严格评估，但数据集应包括更多表型和环境多样性，以进一步提高结果的鲁棒性。在未来的工作中，将评估一些新的数据增强技术和模型架构的调整，以及该方法在轻量级、低功耗设备上的计算性能，目标是开发出适合农村生产者实际应用的解决方案。

Ewerton Costa Sousa的贡献声明：
写作——审阅与编辑、撰写原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、正式分析、数据管理、概念化。
Ricardo de Andrade Lira Rabelo的贡献：
写作——审阅与编辑、验证、监督、资源、项目管理、方法论、资金获取、正式分析、概念化。
José Lindenberg Rocha Sarmento的贡献：
写作——审阅与编辑、验证、监督、资源、项目管理、方法论、正式分析、概念化。

在准备这项工作时，作者使用了ChatGPT（OpenAI）来提高手稿的清晰度和语言表达。使用该工具后，作者根据需要审阅和编辑了内容，并对出版物的内容负全责。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部