基于YOLOv8、Faster R-CNN与HRNet架构的人工智能模型比较:一种用于公牛精子活力评估的高可靠性、高效率新方法

时间:2026年3月16日
来源:Frontiers in Veterinary Science

编辑推荐:

文献推荐 本研究针对传统伊红-苯胺黑(eosin/nigrosin)染色法评估精子活力时存在的主观性强、耗时及高误差率等问题,以及流式细胞术成本高、需专业人员操作的限制,探索了利用人工智能(AI)模型进行自动化分析的可行性。研究系统比较了YOLOv8、YOLOv12、Faster R-CNN和YOLOv5+HRNet四种深度学习架构在分析公牛伊红-苯胺黑染色精子涂片时的性能。结果表明,基于AI的分析在保持高准确性的同时,速度远超人工计数,为解决精子活力分析中的效率与可靠性矛盾提供了创新性技术方案,具有重要的临床应用潜力。

广告
   X   

研究背景与目标
精子学分析是男科学和兽医学评估雄性生殖能力的基础,其中精子活力分析是评估男性不育的关键步骤。传统的伊红-苯胺黑染色法虽然操作简便、成本低廉,但结果受染色质量、显微镜性能及操作者经验等主观因素影响大,且人工计数至少300个精子耗时耗力、易出错。作为替代方案的流式细胞术虽然可靠,但设备昂贵、需要专业人员操作,难以普及。因此,本研究旨在开发一种兼具传统染色法的简便、经济与流式细胞术的快速、可靠等优点的新方法,利用人工智能对伊红-苯胺黑染色精子样本进行自动化活力分析。
材料与方法
本研究采用了系统性的工作流程,主要包括数据准备、模型训练与测试、模拟验证三个阶段。
数据准备:研究从15份冷冻公牛精液样本中制备了30张伊红-苯胺黑染色涂片,并使用手机摄像头在光学显微镜下采集了总计3068张显微图像。这些图像被划分为训练集(2140张)、验证集(512张)和测试集(416张)。在标注前,使用大津(Otsu)阈值法对原始图像进行了裁剪预处理。由三位专业人员通过Roboflow平台对精子头部进行边界框标注,死精(染成粉红色)和活精(呈白色)的判定遵循世界卫生组织(WHO)标准。为确保标注一致性,评估了标注者间边界框位置的一致性(平均交并比IoU为0.84)和分类标签的一致性(Fleiss‘ Kappa系数为0.94,达到“几乎完全一致”水平)。
模型选择与训练:研究选取了四种具有代表性的目标检测架构进行性能比较:YOLOv8 Small、YOLOv12、Faster R-CNN和YOLOv5+HRNet。YOLOv8采用无锚点(anchor-free)结构和解耦头(decoupled head)设计,专注于小物体检测。YOLOv12则采用了以注意力机制(Area Attention, A2)为核心的新架构,以提升精度和速度。Faster R-CNN是经典的两阶段(two-stage)检测器,包含区域提议网络(RPN)和分类回归网络。YOLOv5+HRNet结合了HRNet的高分辨率特征提取能力和YOLOv5的检测机制。所有模型使用相同的超参数(如图像尺寸1024×1024、学习率0.01、训练300轮等)在A100 GPU上进行训练,并采用早停(patience=50)策略以防止过拟合。YOLOv8训练耗时最短(5.2小时),YOLOv12次之(5.5小时)。
性能评估指标:研究采用了综合的评估体系。在分类性能上,计算了召回率(Recall, 灵敏度)、特异性(Specificity)、准确率(Accuracy)、平衡准确率(Balanced Accuracy)、精确率(Precision)、F1分数(F1 Score)、受试者工作特征曲线下面积(AUC-ROC)、科恩卡帕系数(Cohen’s Kappa)和约登指数(Youden Index)等。在目标检测性能上,则使用了交并比(IoU)、平均精度(mAP)50和mAP50-95等指标。此外,还进行了模拟测试(Mock Test),将AI模型与专家在独立的新制备涂片图像上进行对比,并统计了分析耗时。
结果
测试集性能:在测试集上,YOLOv8模型展现了最高的综合性能,其平衡准确率达到97.1%(95% CI:96.4–97.7%),F1分数为0.978,在检测死精子方面获得了最高的mAP50(0.9772)。YOLOv12表现紧随其后,平衡准确率为94.1%,在检测活精子方面获得了最高的mAP50(0.9856)。在更严格的mAP50-95指标上,YOLOv12以0.5727略微领先于YOLOv8的0.5684。Faster R-CNN的性能处于中等水平。而YOLOv5+HRNet模型表现显著不佳,尤其在死精子检测上因特异性极低(22.0%)而出现严重性能下降,其平衡准确率仅为57.3%。混淆矩阵分析显示,YOLOv5+HRNet将大量(786个)死精子错误地分类为活精子。麦克尼马尔检验(McNemar’s test)表明,YOLOv8、YOLOv12、Faster R-CNN的预测与参考评估(金标准)之间无显著差异(p>0.05),而YOLOv5+HRNet则存在显著差异。视觉示例也证实了YOLOv8和YOLOv12的预测与真实情况高度吻合,而Faster R-CNN存在误检和漏检,YOLOv5+HRNet则严重漏检死精子。
模拟测试性能:在包含281个精子(171死,110活)的36张独立图像模拟测试中,专家评估取得了近乎完美的平衡准确率(98.8%)。在AI模型中,YOLOv12表现最佳,平衡准确率为91.3%,F1分数0.895;YOLOv8和Faster R-CNN性能相近且稍逊。YOLOv5+HRNet再次表现最差。在分析速度上,AI模型在GPU上平均耗时18.75秒,在CPU上为59.19秒,而专家手动计数需5分23秒。因此,AI分析速度分别是GPU的16.7倍和CPU的5.3倍。在精子总数和死活比例预测的准确性方面,YOLOv8和YOLOv12在图像精子密度高低情况下均表现稳定且接近完美预测;YOLOv5+HRNet在活精子计数上准确,但完全无法准确识别死精子;Faster R-CNN在含有10个以上精子的图像中均出现错误预测。
错误分析:研究分析了所有模型出现错误检测的常见原因,主要包括:精子尾部越过头部、精子周围存在明暗变化区域、气泡被误认为精子、因涂片导致未着色头部颜色变深、图像清晰度不足、仅分析头部时模型未能识别断裂的头部、精子重叠以及无明显原因的漏检等。
讨论
研究结果证实,基于人工智能的公牛精子活力分析是可行的,并且在受控实验室条件下具有很高的诊断性能。现代目标检测架构,特别是YOLOv8和YOLOv12,能够从伊红-苯胺黑染色涂片中提供可靠且快速的活力评估。YOLOv5+HRNet组合的糟糕性能可能源于其HRNet架构在保留高分辨率特征时,未能提供足够的语义信息来区分死精和活精之间细微的颜色差异,加之训练集中死精(少数类)比例较低,共同削弱了模型对少数类的学习能力。Faster R-CNN模型较高的假阳性和假阴性率可能与其区域提议网络(RPN)的锚点(anchor)设计、骨干网络(ResNet-50)的下采样导致小目标(精子头部)空间信息丢失,以及在精子密集或重叠时非极大值抑制(NMS)机制的性能局限有关。
本研究的优势在于使用了大规模、标注一致性高的数据集,并采用了全面的评估指标和模拟真实场景的测试。然而,也存在一定的局限性:所有图像均来自单一实验室的标准化流程,可能限制了模型在不同设备和染色条件下的普适性;模拟测试虽增强了临床可解释性,但并非多中心外部验证;此外,YOLOv12模型尚未在同行评议期刊正式发表,其性能可能随未来版本更新而变化。
结论
本研究证明,基于人工智能的公牛精子活力分析是可行且高效的。以YOLOv8和YOLOv12为代表的现代目标检测模型,能够以高可靠性对伊红-苯胺黑染色涂片进行自动化评估,其分析速度远超人工计数,为解决传统方法的主观、耗时问题以及流式细胞术的高成本、高门槛问题提供了极具前景的替代方案。当前系统在标准化的涂片制备和成像条件下性能稳定,未来需要在不同实验室环境和设备条件下进行更广泛的验证,以确定其普遍适用性。这项研究为人工智能辅助评估精子学参数开辟了道路,后续研究可扩展此框架以评估更多先进的精子学指标。

生物通微信公众号
微信
新浪微博


生物通 版权所有