基于YOLOv8的深度学习框架，利用口腔内图像检测和分类潜在的口腔恶性病变及口腔癌

时间：2026年2月18日

来源：Oral Surgery, Oral Medicine, Oral Pathology and Oral Radiology

编辑推荐：

本研究基于YOLOv8深度学习框架，通过数据增强构建包含3285张口腔图像的数据库，成功实现口腔潜在恶性病变和癌症的高精度自动检测，mAP@50达98.83%，为基层筛查提供技术支持。

印度哈里亚纳邦罗塔克市潘迪特·B·D·夏尔马健康科学大学（Pandit BD Sharma University of Health Sciences）牙科科学研究生院口腔与颌面病理学及微生物学系，邮编124001

摘要

目的

：本研究旨在基于You Only Look Once第8版（YOLOv8）实例分割架构开发深度学习框架，并利用数字口腔内图像评估其在检测和分类口腔潜在恶性疾病（OPMDs）和口腔癌方面的性能。

研究设计

：研究使用了包含583张临床口腔内图像的数据集，这些图像展示了227例口腔癌和356例口腔潜在恶性疾病（OPMDs），以及46张临床健康的口腔黏膜图像作为背景。通过数据增强技术，数据集扩展到了3,285张图像，其中包括1,060例癌症病例、2,051例癌前病变和258张健康口腔黏膜图像。Roboflow软件被用于图像分类和标注，包括多类标记和实例分割，模型由两位口腔病理学专家进行训练。

结果

：YOLOv8实例分割模型表现出优异的性能，在0.50的掩码IoU阈值（mAP@50）下平均精度达到98.83%，在0.50-0.95的阈值下达到78.24%，表明其具有强大的分割能力。该模型在分类方面的表现也非常出色，精度为96.76%，召回率为98.24%。

结论

：这些发现突显了基于AI的YOLOv8分割模型在支持可疑口腔病变检测和分类方面的潜力。所提出的框架可以帮助普通牙科医生识别需要活检的OPMDs和口腔癌病例，从而促进及时转诊以进行适当的临床管理，尤其是在专家资源有限的情况下。

引言

口腔癌是全球第六大常见癌症，印度占全球病例总数的近三分之一。口腔鳞状细胞癌（OSCC）是大多数口腔癌的类型，它可以原发（OSCC-dn）或通过口腔潜在恶性疾病（OPMDs）的恶性转化继发（s-OSCC）而发生，OPMDs在某些患者中表现为可临床检测的癌前状态。及时识别OPMDs对于防止其进展为s-OSCC和改善患者预后至关重要；然而，许多OPMDs在早期阶段没有临床症状，各种挑战继续限制了早期检测策略的有效性。

这些挑战包括临床检查技术的差异、病变外观的多样性以及健康素养的不足，这些都显著阻碍了及时检测。除了严重的健康后果和发病率外，晚期癌症还会给患者带来巨大的经济和心理负担。

尽管口腔易于检查，且可以通过视觉检查进行初步评估，但这些评估本质上是主观的。因此，活检仍然是确诊的金标准。然而，在像印度这样的发展中国家，特别是在偏远地区，由于缺乏专家资源，大规模人群的筛查受到限制，这可能会进一步延迟疑似病变的诊断。为了缓解这些影响患者口腔健康的挑战，前线卫生工作者能够在早期诊断OPMDs，提供全面的临床评估、立即转诊疑似病变患者以及指导患者改变不良习惯，从而采取推荐的护理措施。

在这种情况下，印度认证的社会健康活动家（ASHAs）已成为社区为基础的口腔癌早期检测的关键力量，尤其是在边缘或资源匮乏的地区。经过培训后，ASHAs能够使用智能手机进行基本口腔检查并拍摄口腔内图像，帮助连接初级监测和专业临床护理。当这些智能手机拍摄的图像与基于人工智能（AI）的应用程序结合时，识别高风险病变的能力大大增强，使得及时转诊给专家进行全面评估和干预成为可能。

AI在多个领域显示出显著影响，并逐渐融入临床实践，正在革新诊断、预后和决策工作流程。其中心是机器学习（ML）和深度学习（DL）技术，这些技术依赖于在大型数据集上训练计算模型来识别复杂模式和预测特征。在医学应用中，这些模型使用多种输入进行训练，包括临床记录、影像数据和分子谱型，以执行疾病分类、风险评估和治疗计划等任务。通过利用AI分析在社区层面拍摄的口腔内图像，可以实现可扩展且成本效益高的筛查计划，从而提高口腔癌的早期检测率，识别高风险人群并改善患者健康结果。

早期的口腔癌检测研究主要依赖于传统的机器学习（ML）技术，这些技术主要用于基于纹理的特征分析，并在某些情况下被整合到混合框架中以支持图像分类任务。然而，计算能力和影像分析技术的进步使得深度学习（DL）方法成为近年来的主要方法，因为它们具有强大的处理、分析和解释复杂图像数据的能力。其中，卷积神经网络（CNNs）是大多数研究的核心，采用了诸如VGG-16/19、ResNet-34/50/101/152和DenseNet-121/161/169/201等成熟架构。

尽管这些DL模型取得了有希望的结果，但它们在召回率、特异性和错误率方面仍存在一定的局限性，可能导致漏诊或假阳性结果。AI和深度学习的进一步发展促进了更准确、更高效模型的开发，这些模型能够可靠地识别高风险个体并检测口腔癌和癌前病变。

YOLO作为一种先进的基于卷积神经网络的物体检测框架，因其实时性能、简洁的架构和高检测效率而受到广泛认可。More等人对三种物体检测模型（Faster R-CNN、SSD和YOLO）进行了比较分析，得出YOLO最适合访问控制环境的结论。其优势包括简化的架构以及在训练过程中能够从整个图像上下文中学习的能力。与传统多阶段方法不同，YOLO通过端到端优化显著减少了处理时间并提高了检测准确性。

自2015年问世以来，YOLO系列模型经历了快速而持续的发展。2023年1月发布的YOLOv8在检测性能和计算效率方面取得了显著改进，成为实时物体检测领域的一个有前景的进展。

现有文献表明，关于YOLO在OPMDs和口腔癌分类应用方面的科学研究较少。这突显了探索和实施先进AI架构的必要性，以提高该领域的诊断效率、准确性和实时适用性。因此，本研究旨在提出YOLOv8作为诊断深度学习模型，并评估其算法在利用数字口腔内图像检测和分类口腔潜在恶性疾病和口腔癌方面的有效性。

研究设计

这项前瞻性研究在哈里亚纳邦罗塔克市牙科科学研究生院的口腔病理学与微生物学系进行，属于印度医学研究委员会（ICMR）资助的全国项目的一部分。根据项目协议，纳入了临床诊断为红色和/或白色病变（OPMDs）或疑似恶性肿瘤（口腔癌）的溃疡患者。作为参考，还使用了临床健康的口腔黏膜图像。

基线模型性能（未经数据增强处理）

基线模型在未应用任何数据增强的583张原始图像上进行训练。在这些条件下，模型的总体精度为0.836，召回率为0.729，mAP50为0.819，mAP50-95为0.501。按类别评估显示，癌症类别的精度为0.827，召回率为0.765，mAP50为0.845，mAP50-95为0.536；癌前病变类别的精度为0.841，召回率为0.711，mAP50为0.806，mAP50-95为0.483。

讨论

口腔癌筛查是常规口腔检查的重要组成部分，旨在尽早发现表明恶性肿瘤的病理变化。在口腔恶性肿瘤中，OSCC最为常见，它可以原发（OSCC-dn）或通过口腔潜在恶性疾病（OPMDs）的恶性转化继发（s-OSCC）。由于早期口腔病变患者通常首先就诊于全科医生（包括内科和牙科医生），这些临床医生起着关键作用。