必不可少的工具，却被忽视的偏见：人工智能和公民科学分类方法对相机陷阱收集的数据产生了影响

时间：2025年9月27日

来源：Methods in Ecology and Evolution

编辑推荐：

公民科学和两种AI模型（EfficientNet和DeepFaune）在相机陷阱图像分类中的精度与召回率差异显著，AI在罕见物种夜间检测中表现更优但精度较低，导致 occupancy模型偏差，需优化分类精度并纳入不确定性分析。

在当前全球生物多样性保护日益受到重视的背景下，野生动物监测和研究的重要性不断提升。然而，随着技术的进步，尤其是相机陷阱（camera trapping）的广泛应用，科学家们面临着前所未有的数据量增长问题。这些设备能够自动捕捉大量野生动物图像，但图像分类仍然是一个关键的瓶颈。如果分类结果存在误差，将直接影响后续的生态分析，进而影响保护决策的有效性。因此，研究不同分类方法对生态模型结果的影响，对于确保数据准确性和提升保护工作的科学性具有重要意义。

本文探讨了三种主要的图像分类方法：公民科学（Citizen Science, CS-Zoo）、人工智能（AI）模型（EfficientNet 和 DeepFaune），并分析了它们在分类性能上的差异及其对生态模型预测准确性的影响。研究基于来自西班牙多纳纳国家公园（Doñana National Park）的 51,588 张图像数据，涵盖了七种分类类别，包括“空”、“人类”以及几种哺乳动物（如鹿类、野猪、赤狐、兔形目动物和欧洲獾）。通过对比专家标注数据，研究者评估了这些分类方法的优劣，并进一步进行了大规模模拟实验，以探究分类误差如何影响物种占用模型（occupancy model）的精度。

在实际操作中，相机陷阱的使用具有一定的挑战性。首先，这些设备通常安装在自然环境中，会受到多种因素的影响，例如光照条件、动物行为以及设备本身的性能差异。例如，夜间捕捉的图像往往质量较低，因为红外闪光灯虽然避免了对人类的干扰，但同时也降低了图像的清晰度，从而增加了分类难度。其次，图像数量庞大，手动分类既费时又费力，而人工智能虽然在速度上具有优势，但其分类结果的准确性可能因物种特征和图像质量而异。因此，研究者必须找到一种方法，既能高效处理数据，又能尽可能减少分类误差，以确保生态分析的可靠性。

公民科学项目通过利用大量志愿者的参与，提供了一种快速分类图像的途径。然而，其分类精度通常较低，尤其是在区分罕见或形态相似的物种时。例如，一些研究表明，常见且形态显著的物种更容易被志愿者正确识别，而稀有或相似外观的物种则容易被误判。尽管如此，研究者发现，当采用严格的分类标准和详细的指导材料时，公民科学项目仍能实现较高的分类精度，尤其是在白天拍摄的图像中。这表明，通过优化分类流程，公民科学可以成为一种有效且可信赖的数据来源。

相比之下，人工智能分类方法在处理图像时表现出了更高的召回率（recall），尤其是在夜间捕捉的图像中。EfficientNet 和 DeepFaune 两种模型均展示了在识别某些物种上的优势，例如野猪、兔形目动物和欧洲獾。然而，这些模型在处理“空”类图像时表现不佳，特别是在夜间，其精度显著下降。这种现象可能与夜间图像的低质量有关，同时也反映了人工智能在某些特定条件下仍需进一步优化的问题。

为了全面评估分类方法的性能，研究者采用了多种指标，包括召回率、精确率（precision）和马修斯相关系数（Matthew's Correlation Coefficient, MCC）。这些指标能够反映分类系统在识别不同物种时的准确性和全面性。结果显示，尽管人工智能模型在召回率上优于公民科学，但其在夜间“空”类图像中的表现不佳，导致模型预测结果出现偏差。此外，精确率对于所有分类方法来说都是至关重要的，尤其是在识别罕见物种时，高精确率能够有效减少误判带来的影响。

研究者还采用了一种单季节占用模型（single-season occupancy model）来评估不同分类方法对生态模型预测结果的影响。该模型能够估计物种在某个季节内的占用情况，同时考虑检测概率（detection probability）和分类误差。结果显示，对于常见的“鹿类”物种，所有分类方法的预测结果与专家标注数据高度一致，表明这些模型在处理常见物种时具有较高的可靠性。然而，对于稀有或分布不均的物种，如兔形目动物和欧洲獾，人工智能模型的预测结果存在明显的偏差，而公民科学方法则表现出更稳定的性能。

模拟实验进一步揭示了分类误差对占用模型准确性的影响。研究者发现，精确率是影响模型预测误差（RMSE）的最关键因素，即使在检测概率较低的情况下，高精确率仍能显著降低误差。这表明，提高分类精确率是优化生态模型预测的关键策略。此外，模拟结果还表明，检测概率对模型的影响取决于精确率的水平。当精确率较低时，提高检测概率反而会增加误差，因为更多的误判会被引入；而当精确率较高时，检测概率的增加并不会显著影响模型的准确性，甚至可能降低误差。

研究还指出，分类误差的累积效应可能导致对生态模型的显著干扰，尤其是在物种分布不均或分类系统存在系统性偏差的情况下。例如，当人工智能模型在夜间图像中误判“空”类为其他物种时，可能会导致占用率的高估，从而影响对物种分布模式的理解。这种误差在生态模型中未被考虑，可能会导致误导性的结论。因此，研究者建议，在生态模型中明确纳入分类误差，以提高预测的可靠性。

此外，研究还强调了不同分类方法在处理特定生态问题时的适用性。公民科学方法虽然在分类精度上有所欠缺，但其在处理白天图像时表现良好，能够提供相对准确的物种分布信息。人工智能方法则在处理夜间图像和稀有物种时具有一定的优势，但其在“空”类图像中的表现不佳，可能导致对某些生态特征的误判。因此，结合两种方法的长处，例如利用公民科学数据作为人工智能训练的基础，或在生态模型中引入分类不确定性，可能是提升数据质量和分析准确性的有效途径。

研究结果对于生态学和保护生物学具有重要的实践意义。首先，它们揭示了不同分类方法在处理相机陷阱数据时的优缺点，为研究人员提供了选择合适分类工具的依据。其次，它们强调了分类精度在生态模型中的核心地位，表明即使在数据量庞大的情况下，高精度的分类仍然是确保模型可靠性的关键。最后，研究还指出，分类误差的引入可能对生态参数的估计产生显著影响，特别是在处理稀有或夜间活动的物种时，必须采取额外的措施来减少误判带来的偏差。

总体而言，本文的研究为相机陷阱数据的分类和生态分析提供了一个新的视角。它不仅比较了不同分类方法的性能，还探讨了这些方法对生态模型预测结果的影响。研究结果表明，尽管人工智能在处理大量图像方面具有显著优势，但其分类误差可能导致模型预测的偏差，特别是在夜间和稀有物种的情况下。公民科学方法虽然在速度上不及人工智能，但在某些情况下仍能提供较高的分类精度。因此，未来的研究需要在提高分类精度和处理分类误差方面进行更多探索，以确保生态数据的准确性和可靠性，从而支持更有效的生物多样性保护策略。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部