基于保形预测的公民科学数据半自动化分类验证框架：以水母类生物多样性记录为例

时间：2025年7月3日

来源：Ecological Informatics

编辑推荐：

针对公民科学记录中物种鉴定误差率高、专家验证成本大的问题，本研究提出结合深度学习分类器与保形预测（conformal prediction）的半自动化验证框架，通过生成多分类层级的高置信度预测集合，在25,000条水母记录测试中实现95%置信水平下的自动验证，为海洋生物多样性数据质量控制提供了可扩展解决方案。

在海洋生态研究中，公民科学记录的爆发式增长带来了数据质量控制的重大挑战。非专业观察者提交的物种记录常存在鉴定错误，而传统依赖专家验证的方式难以应对海量数据。尤其对于水母类（medusozoans）等形态易混淆物种，视觉鉴定难度更高。当前计算机视觉技术虽能辅助分类，但模型置信度校准不足，且稀有物种识别准确率低，亟需建立兼顾效率与可靠性的验证体系。

法国蒙彼利埃大学等机构的研究团队在《Ecological Informatics》发表研究，提出整合多层级分类器与保形预测的半自动化框架。该研究采集2005-2024年间91,290条水母记录，包含GBIF验证数据和iNaturalist待验证数据，通过对比微调BioCLIP模型与多任务ResNet50的性能，结合保形预测生成95%置信度的分类集合，最终实现13-15%记录的全自动验证。

关键技术包括：1) 构建分层分类模型（BioCLIP基于ViT架构，ResNet50采用多任务学习）；2) 使用保形预测校准输出，通过计算α分位数阈值控制预测集覆盖率；3) 设计比例抽样验证流程，确保非单例集的专家验证比例。实验采用5个分类层级（纲/目/科/属/种），评估指标涵盖准确率、宏平均F1值及单例率。

研究结果显示：

分类器性能：微调后的BioCLIP在物种级准确率达69%，显著优于ResNet50基线（3%），但宏F1值仅0.17，反映稀有物种识别短板。
保形预测效果：测试集上所有分类层级的集合精度均达95%目标，BioCLIP在纲/目/科级单例率（100%/84%/57%）显著高于ResNet50，但物种级单例率相当（13% vs 15%）。
稀有物种分析：第五分位（最稀有）物种的集合精度，BioCLIP保持85%而ResNet50降至52%，显示前者对分布偏移的鲁棒性。

讨论指出，该框架通过保形预测的统计保证，将专家验证范围缩小至非单例集，较传统流程效率提升7倍。但存在两重局限：一是图像质量差异导致待验证数据分布偏移，如用户拍摄的模糊或含干扰物图像；二是稀有物种仍依赖专家复核，未来可结合聚类保形预测（clustered conformal prediction）优化覆盖率。

这项研究为公民科学数据验证提供了方法论创新，其核心价值在于：首次将保形预测的统计严谨性与分类器的生物语义层级相结合，既满足生态学研究对95%置信度的硬性要求，又通过自动化单例验证显著降低人力成本。该框架可扩展至其他类群的生物多样性监测，特别是对移动性强、形态易混淆的海洋物种具有应用潜力。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部