DenPAR数据集:面向牙周病AI诊断的标注口腔根尖片开放资源

时间:2025年10月4日
来源:Scientific Data

编辑推荐:

【编辑推荐】为解决牙周病诊断中缺乏高质量标注影像数据的问题,研究人员开展了“DenPAR:面向机器学习的口腔根尖片标注数据集”研究,发布了包含1000张标注根尖片的数据集,提供牙齿分割、牙骨质釉质交界点(CEJ)、根尖点及牙槽嵴骨线等多维度标注。该资源显著提升了AI模型在牙周骨丢失检测等任务的精度,为口腔影像智能分析奠定数据基础。

广告
   X   

在全球口腔健康形势日益严峻的背景下,牙周病作为影响全球35亿人的常见疾病,其早期诊断面临重大挑战。根据世界卫生组织报告,口腔疾病患者总数已超过心血管疾病、糖尿病等五大非传染性疾病的总和。传统的牙科影像检查中,口腔根尖片(Intra-Oral Periapical Radiographs, IOPA)因其高分辨率、低成本等优势成为诊断牙周健康的关键工具,尤其适用于深牙周袋(>5mm)导致的骨吸收评估。然而,当前公开牙科影像数据集多集中于全景片且仅包含牙齿分割标注,缺乏针对根尖片的多维度解剖标记,严重制约了人工智能技术在牙周病精准诊断中的发展。
为解决这一瓶颈,来自斯里兰卡佩拉德尼亚大学牙科学院、工程学院及挪威Simula数字工程中心的研究团队在《Scientific Data》发表了题为“DenPAR: Annotated Intra-Oral Periapical Radiographs Dataset for Machine Learning”的论文,发布了目前规模最大的标注口腔根尖片数据集DenPAR。该数据集包含1000张经专业医师标注的IOPA影像,覆盖9-81岁患者的上颌与下颌区域,不仅提供牙齿分割掩模,还创新性地标注了牙骨质釉质交界点(Cemento-Enamel Junction, CEJ)、根尖点(apex points)及牙槽嵴骨水平线(alveolar crestal bone levels)等关键解剖标志,为开发牙周骨丢失自动检测算法提供了多任务学习基础。
研究团队采用标准化数据采集与标注流程,所有影像均来自佩拉德尼亚牙科医院2020-2023年间的临床常规检查,经伦理审查委员会批准后对患者信息进行双阶段脱敏处理。标注工作由两位修复医学专业专家使用LabelBox平台完成,每位专家的标注结果均经过口腔外科与牙周病学专家的盲法复核,确保标注一致性。数据集按65%:15%:20%比例划分为训练集、验证集与测试集,在划分时充分考虑牙齿数量、牙根类型(单根/多根)、CEJ点数量等六项关键属性的均衡分布,以保证模型评估的公平性。
关键技术方法包括:1)基于LabelBox的多维度标注体系(牙齿分割、CEJ/根尖点关键点检测、牙槽嵴骨线标注);2)采用YOLOv8 pose模型进行牙齿边界框与关键点联合检测;3)利用U-Net及ResNet-34编码器实现牙齿语义分割;4)应用Mask R-CNN与YOLOv5进行牙齿实例分割;5)通过UNet++与MultiResUNet实现牙槽嵴骨线分割。所有实验均严格遵循数据集官方划分,评估指标涵盖AP50(平均精度阈值50%)、Dice系数、IoU(交并比)等标准。
数据记录与结构
数据集采用分层目录结构,包含影像文件(JPG格式)、放射线级别牙齿掩模(PNG格式)、单颗牙齿掩模、骨水平标注(JSON格式)及关键点标注(JSON格式)五类数据。关键点标注文件采用COCO(Common Objects in Context)格式,包含以[xmin, ymin, xmax, ymax]表示的牙齿边界框坐标,满足关键点检测模型的输入要求。影像分辨率分布在549×717至1542×1537像素之间,平均分辨率约1060×950像素。
技术验证结果
关键点检测实验中,YOLOv8 pose模型对CEJ点检测的AP50达0.355(测试集),牙齿检测AP50达0.991;根尖点检测AP50为0.308,显示模型在复杂解剖结构定位中的潜力。语义分割任务中,U-Net+ResNet-34组合获得最佳性能(测试集Dice系数0.9309,IoU 0.8744),显著优于基础U-Net模型(IoU 0.8405)。实例分割方面,YOLOv5在掩模检测AP50达到0.981,优于Mask R-CNN(0.894)。骨水平检测任务由于标注形态复杂性,UNet++模型的Dice系数为0.089,提示该任务仍需算法优化。
可视化结果对比显示,预测关键点(蓝色)与真实标注(红色)在牙冠及根尖区域高度重合,但在重叠牙根等复杂场景存在偏差。牙齿分割结果中,U-Net+ResNet-34预测掩模边缘更贴合真实牙齿形态,而基础U-Net在牙间隙处存在过分割现象。骨水平检测输出(红色线)与真实标注(绿色线)的趋势一致性较高,但像素级精度仍需提升。
研究结论表明,DenPAR数据集通过提供多维度标注的根尖片,有效解决了牙周病AI诊断中的数据短缺问题。其均衡的数据分布与严格的质量控制为开发临床决策支持系统(如牙槽骨丢失自动检测)提供了可靠基础。数据集已通过Zenodo平台开放获取(CC BY 4.0许可),相关代码已在GitHub开源。该资源不仅可应用于牙齿分割、关键点检测等计算机视觉任务,还可与其它公共数据集联合推动跨人群牙周病模式研究,最终助力实现精准牙科诊断。

生物通微信公众号
微信
新浪微博


生物通 版权所有