基于YOLOv8、Faster R-CNN与HRNet架构的人工智能模型比较：一种用于公牛精子活力评估的高可靠性、高效率新方法

时间：2026年3月16日

来源：Frontiers in Veterinary Science

编辑推荐：

文献推荐本研究针对传统伊红-苯胺黑（eosin/nigrosin）染色法评估精子活力时存在的主观性强、耗时及高误差率等问题，以及流式细胞术成本高、需专业人员操作的限制，探索了利用人工智能（AI）模型进行自动化分析的可行性。研究系统比较了YOLOv8、YOLOv12、Faster R-CNN和YOLOv5+HRNet四种深度学习架构在分析公牛伊红-苯胺黑染色精子涂片时的性能。结果表明，基于AI的分析在保持高准确性的同时，速度远超人工计数，为解决精子活力分析中的效率与可靠性矛盾提供了创新性技术方案，具有重要的临床应用潜力。

研究背景与目标

精子学分析是男科学和兽医学评估雄性生殖能力的基础，其中精子活力分析是评估男性不育的关键步骤。传统的伊红-苯胺黑染色法虽然操作简便、成本低廉，但结果受染色质量、显微镜性能及操作者经验等主观因素影响大，且人工计数至少300个精子耗时耗力、易出错。作为替代方案的流式细胞术虽然可靠，但设备昂贵、需要专业人员操作，难以普及。因此，本研究旨在开发一种兼具传统染色法的简便、经济与流式细胞术的快速、可靠等优点的新方法，利用人工智能对伊红-苯胺黑染色精子样本进行自动化活力分析。

材料与方法

本研究采用了系统性的工作流程，主要包括数据准备、模型训练与测试、模拟验证三个阶段。

数据准备：研究从15份冷冻公牛精液样本中制备了30张伊红-苯胺黑染色涂片，并使用手机摄像头在光学显微镜下采集了总计3068张显微图像。这些图像被划分为训练集（2140张）、验证集（512张）和测试集（416张）。在标注前，使用大津（Otsu）阈值法对原始图像进行了裁剪预处理。由三位专业人员通过Roboflow平台对精子头部进行边界框标注，死精（染成粉红色）和活精（呈白色）的判定遵循世界卫生组织（WHO）标准。为确保标注一致性，评估了标注者间边界框位置的一致性（平均交并比IoU为0.84）和分类标签的一致性（Fleiss‘ Kappa系数为0.94，达到“几乎完全一致”水平）。

模型选择与训练：研究选取了四种具有代表性的目标检测架构进行性能比较：YOLOv8 Small、YOLOv12、Faster R-CNN和YOLOv5+HRNet。YOLOv8采用无锚点（anchor-free）结构和解耦头（decoupled head）设计，专注于小物体检测。YOLOv12则采用了以注意力机制（Area Attention, A²）为核心的新架构，以提升精度和速度。Faster R-CNN是经典的两阶段（two-stage）检测器，包含区域提议网络（RPN）和分类回归网络。YOLOv5+HRNet结合了HRNet的高分辨率特征提取能力和YOLOv5的检测机制。所有模型使用相同的超参数（如图像尺寸1024×1024、学习率0.01、训练300轮等）在A100 GPU上进行训练，并采用早停（patience=50）策略以防止过拟合。YOLOv8训练耗时最短（5.2小时），YOLOv12次之（5.5小时）。

性能评估指标：研究采用了综合的评估体系。在分类性能上，计算了召回率（Recall，灵敏度）、特异性（Specificity）、准确率（Accuracy）、平衡准确率（Balanced Accuracy）、精确率（Precision）、F1分数（F1 Score）、受试者工作特征曲线下面积（AUC-ROC）、科恩卡帕系数（Cohen’s Kappa）和约登指数（Youden Index）等。在目标检测性能上，则使用了交并比（IoU）、平均精度（mAP）50和mAP50-95等指标。此外，还进行了模拟测试（Mock Test），将AI模型与专家在独立的新制备涂片图像上进行对比，并统计了分析耗时。

结果

测试集性能：在测试集上，YOLOv8模型展现了最高的综合性能，其平衡准确率达到97.1%（95% CI：96.4–97.7%），F1分数为0.978，在检测死精子方面获得了最高的mAP50（0.9772）。YOLOv12表现紧随其后，平衡准确率为94.1%，在检测活精子方面获得了最高的mAP50（0.9856）。在更严格的mAP50-95指标上，YOLOv12以0.5727略微领先于YOLOv8的0.5684。Faster R-CNN的性能处于中等水平。而YOLOv5+HRNet模型表现显著不佳，尤其在死精子检测上因特异性极低（22.0%）而出现严重性能下降，其平衡准确率仅为57.3%。混淆矩阵分析显示，YOLOv5+HRNet将大量（786个）死精子错误地分类为活精子。麦克尼马尔检验（McNemar’s test）表明，YOLOv8、YOLOv12、Faster R-CNN的预测与参考评估（金标准）之间无显著差异（p>0.05），而YOLOv5+HRNet则存在显著差异。视觉示例也证实了YOLOv8和YOLOv12的预测与真实情况高度吻合，而Faster R-CNN存在误检和漏检，YOLOv5+HRNet则严重漏检死精子。

模拟测试性能：在包含281个精子（171死，110活）的36张独立图像模拟测试中，专家评估取得了近乎完美的平衡准确率（98.8%）。在AI模型中，YOLOv12表现最佳，平衡准确率为91.3%，F1分数0.895；YOLOv8和Faster R-CNN性能相近且稍逊。YOLOv5+HRNet再次表现最差。在分析速度上，AI模型在GPU上平均耗时18.75秒，在CPU上为59.19秒，而专家手动计数需5分23秒。因此，AI分析速度分别是GPU的16.7倍和CPU的5.3倍。在精子总数和死活比例预测的准确性方面，YOLOv8和YOLOv12在图像精子密度高低情况下均表现稳定且接近完美预测；YOLOv5+HRNet在活精子计数上准确，但完全无法准确识别死精子；Faster R-CNN在含有10个以上精子的图像中均出现错误预测。

错误分析：研究分析了所有模型出现错误检测的常见原因，主要包括：精子尾部越过头部、精子周围存在明暗变化区域、气泡被误认为精子、因涂片导致未着色头部颜色变深、图像清晰度不足、仅分析头部时模型未能识别断裂的头部、精子重叠以及无明显原因的漏检等。

讨论

研究结果证实，基于人工智能的公牛精子活力分析是可行的，并且在受控实验室条件下具有很高的诊断性能。现代目标检测架构，特别是YOLOv8和YOLOv12，能够从伊红-苯胺黑染色涂片中提供可靠且快速的活力评估。YOLOv5+HRNet组合的糟糕性能可能源于其HRNet架构在保留高分辨率特征时，未能提供足够的语义信息来区分死精和活精之间细微的颜色差异，加之训练集中死精（少数类）比例较低，共同削弱了模型对少数类的学习能力。Faster R-CNN模型较高的假阳性和假阴性率可能与其区域提议网络（RPN）的锚点（anchor）设计、骨干网络（ResNet-50）的下采样导致小目标（精子头部）空间信息丢失，以及在精子密集或重叠时非极大值抑制（NMS）机制的性能局限有关。

本研究的优势在于使用了大规模、标注一致性高的数据集，并采用了全面的评估指标和模拟真实场景的测试。然而，也存在一定的局限性：所有图像均来自单一实验室的标准化流程，可能限制了模型在不同设备和染色条件下的普适性；模拟测试虽增强了临床可解释性，但并非多中心外部验证；此外，YOLOv12模型尚未在同行评议期刊正式发表，其性能可能随未来版本更新而变化。

结论

本研究证明，基于人工智能的公牛精子活力分析是可行且高效的。以YOLOv8和YOLOv12为代表的现代目标检测模型，能够以高可靠性对伊红-苯胺黑染色涂片进行自动化评估，其分析速度远超人工计数，为解决传统方法的主观、耗时问题以及流式细胞术的高成本、高门槛问题提供了极具前景的替代方案。当前系统在标准化的涂片制备和成像条件下性能稳定，未来需要在不同实验室环境和设备条件下进行更广泛的验证，以确定其普遍适用性。这项研究为人工智能辅助评估精子学参数开辟了道路，后续研究可扩展此框架以评估更多先进的精子学指标。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部