使用自动化深度学习技术,在全景X光片上检测上颌切牙因正畸治疗而引发的外部根尖吸收现象

时间:2026年2月28日
来源:Progress in Orthodontics

编辑推荐:

**摘要** **目的** 本研究旨在开发和比较两个基于YOLOv12的深度学习模型——对象检测和姿态估计——用于使用全景X光片自动分类正畸引起的外部根尖吸收(OIEARR)。 **材料与方法** 回顾性分析了来自312名年龄在10至18岁之间的患者共计624张全景X

广告
   X   

**摘要**

**目的**
本研究旨在开发和比较两个基于YOLOv12的深度学习模型——对象检测和姿态估计——用于使用全景X光片自动分类正畸引起的外部根尖吸收(OIEARR)。

**材料与方法**
回顾性分析了来自312名年龄在10至18岁之间的患者共计624张全景X光片,这些患者至少接受了12个月的固定正畸治疗。两位经验丰富的正畸医生根据4点量表(0级到3级)对每位患者的上颌中切牙和侧切牙的OIEARR严重程度进行了评级。训练了两个基于YOLOv12的模型:一个用于区域分析的对象检测(OD)模型,另一个用于解剖标志定位的姿态估计(PE)模型。这两个模型都在标注过的全景图像上进行了训练和验证,并使用准确率、精确度、召回率、特异性、F1分数、混淆矩阵和ROC-AUC进行了评估。

**结果**
PE模型在所有评估指标上均优于OD模型,显示出更强的OIEARR检测能力。具体而言,PE模型的加权F1分数为0.88,而OD模型为0.60。PE模型还表现出更高的准确率(0.93 vs 0.78)、精确度(0.88 vs 0.64)和召回率(0.88 vs 0.59),证明了其在根尖吸收分类方面的稳健性。特别是在1级和2级吸收类别中,PE模型的分类性能明显更好(F1分数分别为0.85和0.88),同时在3级病例中也保持了出色的检测能力(F1分数为0.95)。混淆矩阵分析显示,大多数误分类发生在相邻等级之间。PE模型的ROC-AUC值始终较高(0.90–0.99),表明其在所有吸收阶段都具有很强的区分能力。

**结论**
YOLOv12x PE模型提供了一种可靠且敏感的工具,可用于检测全景X光片上的不同程度根尖吸收。其精细的解剖定位能力有助于早期诊断,成为正畸临床决策支持中的一个有前景的方法。

---

**引言**
正畸引起的外部根尖吸收(OIEARR)是由于治疗过程中施加的力超过了牙周组织的抵抗和修复能力而导致的正畸治疗的主要并发症之一[1,2,3]。这被视为正畸治疗的一个不良后果[4],常常令临床医生感到担忧[5, 6]。尽管关于OIEARR的病因尚无共识,但已有多个因素被认为可能对其发展有贡献,包括个体易感性、遗传倾向、解剖特征和正畸机械治疗效果[7, 8]。据组织学研究报道,超过90%的正畸治疗牙齿存在OIEARR[9, 10]。使用诊断性放射技术,轻至中度的OIEARR在40%–60%的病例中被发现[11]。然而,如果未能及时诊断并阻止其进展,可能会出现严重的根尖吸收,其发生率在1%–5%之间[8]。在大多数轻度OIEARR病例中,牙齿的存活和功能不受影响[8, 12, 13],但在严重情况下,根尖缩短超过4毫米或根长的三分之一[8]可能会威胁牙齿的存活[12, 14, 15]。因此,尽管轻度OIEARR在临床上不那么显著,但在其发展成更严重阶段之前进行诊断仍然至关重要。虽然OIEARR可以发生在口腔中的任何牙齿上,但它最常见于上切牙[16, 17]。鉴于该疾病的无症状特性,临床医生需要保持警惕。由于轻至中度的OIEARR没有症状,通常通过分析全景或根尖X光片进行诊断,而这些X光片通常是在正畸治疗过程中获得的。全景X光片提供了包括颞下颌关节在内的整个上下颌复合体的全面视图,被广泛用作识别OIEARR的正畸诊断工具[18, 19]。尽管全景X光片由于切牙区域的失真并不被认为是诊断和监测OIEARR的最佳成像技术,但最近的一项研究发现,97.5%的正畸医生更倾向于将其作为OIEARR的最常用筛查方法[19]。

近年来,基于人工智能(AI)的计算机辅助诊断程序越来越多,特别是在需要放射评估的牙科应用中[20,21,22]。其中,YOLO系列模型因其能够一次性处理整个图像而受到广泛青睐,因为它既快速又准确[23]。这种效率在医学成像中尤为重要,因为及时可靠的诊断至关重要[24]。近年来,YOLO架构越来越多地被用于牙科放射分析,包括龋齿检测、牙齿定位、下颌骨折识别、牙周骨丢失评估和头影测量标志点检测[25,26,27,28,29]。多年来,YOLO算法在处理输入图像和提高不同尺度上的特征集成方面变得更加有效。2025年,YOLOv12在架构上取得了进展,以提高训练稳定性和模型收敛性[30]。对象检测模型被训练用来在图像中找到和分类对象。这个过程通常涉及通过学习如何对图像中的区域进行分类来训练模型,然后为检测到的对象绘制边界框[31]。相反,姿态估计的主要目的是识别图像中的对象并对图像中的不同姿态进行分类[32]。目前尚不清楚在同一诊断工作流中结合这两种互补的建模方法将如何有助于OIEARR的检测,特别是考虑到准确确定受影响区域及其结构特征的重要性。在少数关于OIEARR的文献研究中,人工智能支持的系统已被用于在锥形束计算机断层扫描(CBCT)上检测根尖吸收。这些研究报告称,基于深度学习的方法使用CBCT图像提供了可靠和自动的OIEAR检测工具[20,21,22]。与全景X光片不同,CBCT通常不用于诊断OIEARR,但在严重情况下可以作为有价值的调查工具。然而,如前所述,全景X光片在正畸治疗期间经常被临床医生使用。因此,在OIEARR达到晚期之前,能够在早期阶段检测到它是非常重要的。然而,在临床实践中,全景X光片上很难辨别根组织的轻微吸收。AI在这一领域的潜在应用引起了极大的兴趣。然而,现有文献的综述并未显示任何研究表明AI在全景X光片上检测OIEARR的有效性。

**本研究的目标是开发和比较两个基于YOLOv12的深度学习模型——对象检测和姿态估计——用于使用全景X光片自动分类正畸引起的外部根尖吸收(OIEARR)。**

---

**材料与方法**
回顾性分析了来自312名年龄在10至18岁之间的患者共计624张全景X光片,这些患者至少接受了12个月的固定正畸治疗。两位经验丰富的正畸医生根据4点量表(0级到3级)对每位患者的上颌中切牙和侧切牙的OIEARR严重程度进行了评级。训练了两个基于YOLOv12的模型:一个用于区域分析的对象检测(OD)模型,另一个用于解剖标志定位的姿态估计(PE)模型。这两个模型都在标注过的全景图像上进行了训练和验证,并使用准确率、精确度、召回率、特异性、F1分数、混淆矩阵和ROC-AUC进行了评估。

---

**结果**
PE模型在所有评估指标上均优于OD模型,显示出更强的OIEARR检测能力。具体而言,PE模型的加权F1分数为0.88,而OD模型为0.60。PE模型还表现出更高的准确率(0.93 vs 0.78)、精确度(0.88 vs 0.64)和召回率(0.88 vs 0.59),证明了其在根尖吸收分类方面的稳健性。特别是在1级和2级吸收类别中,PE模型的分类性能明显更好(F1分数分别为0.85和0.88),同时在3级病例中也保持了出色的检测能力(F1分数为0.95)。混淆矩阵分析显示,大多数误分类发生在相邻等级之间。PE模型的ROC-AUC值始终较高(0.90–0.99),表明其在所有吸收阶段都具有很强的区分能力。

**结论**
YOLOv12x PE模型提供了一种可靠且敏感的工具,可用于检测全景X光片上的不同程度根尖吸收。其精细的解剖定位能力有助于早期诊断,成为正畸临床决策支持中的一个有前景的方法。每位患者共有“12个关键点”被标记出来(见图2)。对于每颗切牙,根长是通过预测的宫颈点和尖端点之间的距离来计算的,从而能够量化外部尖端根吸收的情况。治疗前后的X光片之间根长的百分比减少量被自动计算出来,为与手动临床评估进行比较提供了客观的测量数据。

2- 对象检测(OD)模型(YOLOv12x):OD模型被应用于在全景X光片上定位上颌中央和侧切牙的牙冠和根部区域。每位患者共标记了8个边界框(见图3)。在基线和治疗后阶段,为每颗牙齿生成了包含切牙边缘、宫颈边缘和根尖的矩形感兴趣区域(ROIs)。通过计算两个时间点之间根长的百分比减少量来量化根吸收。自动记录的测量数据可用于与手动临床评估进行比较。

深度学习模型的训练
基于Ultralytics YOLOv12架构开发了两个独立的深度学习模型。OD模型和PE模型都建立在共享的骨干网络(CSPDarkNetV8)和特征融合层(BiFPN++)之上,从而实现了多尺度特征提取。在OD流程中,使用了分离的头结构来进行同时的类别预测和边界框回归,然后通过非最大值抑制(NMS)来确定输出区域。在PE流程中,使用了双头结构来生成热图和偏移向量,以预测解剖标志点的坐标。虽然OD模型提供了粗略的区域定位,但基于关键点的PE模型旨在为解剖学相关点提供精细的坐标级别输出。因此,假设PE模型在检测根吸收模式方面具有更高的精度,特别是在涉及小范围或复杂形态变化的情况下。本研究中实现的基于YOLOv12的OD和PE模型的架构结构在图4中进行了总结。

本研究分析了来自312名接受过固定正畸治疗的患者的共624张全景X光片。数据集被分为训练集(n=496,占80%)、验证集(n=64,占10%)和测试集(n=64,占10%)。为了泛化模型,所有训练和验证数据集都在模型训练过程中被使用,无论是治疗前还是治疗后拍摄的。然而,在测试数据集中,用于外部根吸收分类的模型分别应用于治疗前后的X光片,并使用开发的技术将结果转换为等级。因此,测试X光片的总数为64张,其中包括32张治疗前和32张治疗后的X光片。这样,测试数据集包括了32名患者的X光片,由于每张X光片检查了4颗牙齿,总共检查了128颗牙齿。

为了确保模型能够在不同的亮度条件、颜色变化和对比度水平下做出准确的预测,使用了光度增强技术;为了确保模型能够识别不同方向、位置和大小的物体,使用了几何增强技术;为了防止模型在质量低、模糊或嘈杂的数据中失去性能,使用了失真和噪声增强技术。在输入之前,所有图像像素值都被从0-255的范围标准化到了0-1的范围。

两个模型都是在PyTorch框架中实现的,并在配备有Intel Core i9-12900 K处理器、128 GB DDR5 RAM和NVIDIA Quadro RTX A6000 GPU的高性能工作站上进行了训练。两个模型使用相同的超参数进行训练。采用了早期停止机制来防止过学习。在验证集上表现最佳的模型被保存下来,并用于测试集。使用的超参数及其值如下表所示(表1)。

基于深度学习的测量外部尖端根吸收
在模型推理之后,PE模型和OD模型分别生成了根长预测。对于PE模型,根长是根据预测的切牙边缘和根尖坐标之间的线性距离来估计的。对于OD模型,使用了包含牙冠和根部区域的每个边界框的垂直维度来估计根长。

为了减少全景X光片中放大、失真和投影相关变化对测量结果的影响,测量过程中整合了一种基于比率和标准化的计算方法。在这种情况下,基于YOLOv12的模型的坐标根据X光片的尺寸进行了标准化。此外,根吸收的计算不是基于绝对的像素或毫米长度,而是基于同一牙齿内的时间依赖性比例变化。标准化按照以下方式进行:
$$\:Standardized\:X\:coordinate=\frac{X\:coordinate}{Radiograph\:width}$$
$$\:Standardized\:Y\:coordinate=\frac{Y\:coordinate}{Radiograph\:height}$$
为了补偿治疗前后图像之间的可能尺度和投影差异,根长测量是基于牙冠尺寸进行标准化的。假设根吸收不影响牙冠长度,因此在治疗前后的X光片中牙冠长度保持不变,治疗后的根长按以下方式进行了校正:
$$\:Correction\:Factor=\frac{Initial\:crown\:length}{Post\:Crown\:length}$$
$$\begin{aligned} & Corrected\:final\:root\:length = \frac{{Expected\:final\:root\:lenght}}{{Correction\:factor}} \\ \end{aligned} $$
经过这种校正后,使用同一牙齿的治疗前根长作为参考来计算根吸收:
$$\begin{aligned} & Root\:resorption\:\left( \% \right)= \frac{{Initial\:root\:lenght - corrected\:final\:root\:lenght}}{{Initial\:root\:lenght}}\quad \times 100 \\ \end{aligned} $$
由于根角度、患者位置和焦点对齐的潜在变化,在OD和PE模型中使用了被分类为0级根吸收的同一患者的牙齿来计算测量误差。因此,在测量误差分析中,由正畸专家临床评估为0级(无可见吸收)的牙齿被假定为具有0%的真实吸收值,这些案例被用作量化开发模型内在测量误差的参考集。基于OD边界框模型和基于PE关键点检测模型生成的预测吸收百分比直接与此参考值进行了比较。

专门开发的Python脚本自动应用了这个公式来确定治疗前后根长的百分比减少量。随后,根据Sharpe等人[35]提出的分类系统,将预测的连续吸收百分比分类为离散等级,以便与临床共识评级进行直接比较。

评估深度学习模型性能的指标
为了评估深度学习模型在测试集上的分类性能,构建了混淆矩阵。这些矩阵使得模型输出与相应的真实标签之间进行了详细的比较,提供了关于分类准确性的洞察。使用包括准确率、精确度、召回率和F1分数在内的关键评估指标来评估模型性能,这些指标是根据真正例(TP)、假负例(FN)、假正例(FP)和真负例(TN)的数量计算得出的。

基于YOLOv12的OD和PE模型生成的吸收百分比值使用临床定义的阈值转换为0-3级类别。随后,使用一对多方法进行了ROC分析,其中每个等级被视为正类,其余等级被视为负类。根据正畸医生的真实评估计算了真正例、假正例、假负例和真负例的值。通过检查敏感性(召回率)和假正例率之间的关系来绘制ROC曲线,并计算了曲线下的面积(AUC)。接近1.0的值表示更强的区分性能。

图5的图形摘要中展示了本研究的整体工作流程和方法步骤。

测量误差
为了评估临床分级的可重复性,随机选择了20%的全景X光片子集,并在初次评估一个月后由相同的两个正畸医生重新评估。重新评估是通过共识进行的,遵循相同的标准化临床标准。使用组内相关系数(ICC)评估了初次和基于共识的重复分级之间的一致性。

在评估临床分级可重复性之后,使用被分类为0级的牙齿评估了与深度学习根长估计相关的方法学测量误差。

结果
基于共识评估,基线和一个月随访测量之间的一致性系数(ICC)为0.989,表明两位经验丰富的正畸医生之间具有出色的可重复性。根据方法学测量误差分析的结果,OD模型的平均误差和标准差分别为3.13%和5.85%,PE模型的平均误差和标准差分别为0.74%和1.81%。

使用准确率、精确度、召回率和F1分数评估了两个模型的分类性能,涵盖了所有吸收等级(表2)。PE模型在整体指标和特定等级分类中始终优于OD模型。

表2 比较基于YOLOv12的姿态估计和对象检测模型在不同吸收等级上的分类性能

对于0级(无尖端根吸收),PE模型表现出强大的分类性能,准确率为0.92,精确度为0.79,召回率为0.85,F1分数为0.82。相比之下,OD模型的表现较低,准确率为0.75,精确度为0.44,召回率为0.67,F1分数为0.53。

对于1级(尖端轻微钝化),PE模型再次表现出更好的性能,准确率为0.98,精确度为0.85,召回率为0.85,F1分数为0.85。然而,OD模型的敏感性降低,准确率为0.72,F1分数为0.58。

对于2级(中度吸收,超过钝化并且延伸到根长的三分之一),PE模型保持了稳健的性能,准确率为0.85,精确度为0.86,召回率为0.90,F1分数为0.88。相比之下,OD模型在这一类别中表现显著较差,准确率为0.81,精确度为0.42,召回率为0.52,F1分数为0.47。

对于3级(严重吸收,超过根长的三分之一),两个模型都达到了相对较高的准确率。PE模型的准确率为0.91,精确度为0.99,召回率为0.91,F1分数为0.95,显示出几乎完美的分类能力。OD模型的表现也相当不错,准确率为0.90,精确度为0.91,召回率为0.66,F1分数为0.76。

对于整体分类,PE模型的加权平均性能达到了0.93准确率,0.88精确度,0.88召回率,0.95特异性,F1分数为0.88。相比之下,OD模型的加权准确率为0.78,精确度为0.64,召回率为0.59,特异性为0.86,F1分数为0.60。

图6展示了PE模型和OD模型的代表性混淆矩阵,说明了AI模型在不同吸收等级上的性能。对角线元素表示正确分类的实例(TP和TN),浓度越高表示分类准确性越强。非对角线值代表误分类(FP和FN),通常发生在相邻等级之间。在OD模型中,0级和1级之间的误分类最为明显,表明在检测早期吸收方面存在困难。2级也与1级和3级之间存在混淆。相比之下,PE模型显示出更主导的对角线矩阵,误分类最少,特别是在3级分类中实现了高准确率,并且在其他类别中的重叠较少。

图7显示了PE模型和OD模型的ROC曲线,说明了它们在不同吸收等级上的区分性能。AUC代表了模型区分类别的总体能力,接近1.0表示高敏感性和特异性,而接近0.5的值表示较差的区分能力。在PE模型中,3级(AUC=0.98)和0级(AUC=0.96)展示了几乎完美的分类性能,而1级和2级也实现了强诊断性能(AUC=0.94和0.93)。相比之下,OD模型在所有等级上的AUC值较低,特别是在1级(AUC=0.76)和2级(AUC=0.79),表明其在区分相邻吸收等级方面的能力较弱。

讨论
OIEARR是正畸治疗的一个公认的不良效应,但很难识别[8]。它经常出现在常规的全景X光片中,因此需要更准确的工具。本研究旨在使用基于AI的方法自动检测和分类全景X光片上的OIEARR。文献中关于全景X光片上OIEARR的研究相当有限[36],我们的研究提供了一种详细的方法论和比较分析。

文献中报道,正畸医生主要依赖放射成像技术来评估OIEARR[37]。虽然根尖和全景X光片被广泛使用,但两者都有局限性。根尖影像由于标准化难度较大,容易出现操作者间差异;而全景X光片则可能受到放大误差和图像变形的影响。一些研究表明,与根尖影像相比,全景X光片可能高估了根部丧失的程度约20%[38],但它仍然被常规用于正畸治疗前和治疗期间的筛查[39]。Currell等人[19]报告称,全景X光片仍是检测OIEARR最常用的成像方式,这与一些报告称根尖影像更常用于OIEARR筛查的观点相反[38, 39]。尽管CBCT提供了更高的诊断准确性,但由于其辐射剂量较大和成本较高,其常规使用受到了限制。低剂量方案可以减少辐射暴露,但CBCT的辐射量仍高于2D成像[40, 41]。先前的研究还指出,在固定治疗开始后的6-12个月拍摄全景X光片是一种良好的临床实践,因为这与治疗结束时的OIEARR等级有显著关联[18, 38]。此外,早期检测已存在的吸收现象对治疗计划和预测长期结果具有重要的临床意义。由于CBCT在临床实践中并不常规使用,因此在全景X光片上检测已存在的吸收现象对从业者来说非常有帮助。所提出的方法提供了一种有价值的筛查工具,用于在无法轻松获取CBCT或CBCT成本过高的情况下,对根部吸收进行初步和定量评估。在本研究中使用全景X光片是一个实用、可行且基于伦理原则的决定,反映了现实世界的临床实践,并为应用AI驱动的诊断工具奠定了基础。我们使用相同的成像设备和操作者来处理所有全景X光片,以减少设备间和操作者间的差异。这种方法的一致性旨在控制主要的测量误差来源之一:头部定位的变化。先前的研究表明,即使头部位置的微小偏差也会显著影响传统全景图像上前牙长度的测量[42]。虽然3D全景X光片被提出作为一种减轻此类误差的方法,但我们试图通过标准化成像方案和操作技术来解决这一限制。这种控制方法增强了我们研究结果的内部有效性,并支持了从传统全景X光片得出的基于AI的根部长度评估的可靠性。

上颌门牙是最受OIEARR影响的牙齿[8, 11, 16],且在美观和发音方面具有重要意义。与具有显著形态变异性的多根后牙相比,上颌门牙具有相对直的根部和完全发育的根部,更适合进行评估。因此,与先前的研究[2, 5, 12, 13, 14, 15]一致,本研究仅关注上颌门牙的评估,以避免后牙的形态复杂性对结果的影响。

关于测量OIEARR的最佳方法,文献中并没有共识,无论是以毫米为单位还是以根部丧失的百分比来表示。根据Levander和Malmgren [43] 的分类,当根部丧失少于2毫米或不到根部长度的三分之一时,属于轻度吸收;超过2毫米但不到三分之一时属于中度吸收;超过三分之一时属于重度吸收。相比之下,一些研究者将重度吸收定义为超过5毫米的丧失[44]。此外,一些研究认为,在评估OIEARR的严重程度时,使用基于百分比的评估方法可能比使用绝对毫米值更有临床意义[15]。基于这一理由,我们采用了基于百分比的分级系统来测量OIEARR。

本研究使用了先进的YOLOv12框架。YOLOv12引入了一种以注意力机制为中心的新架构,摒弃了早期YOLO模型的传统CNN基础设计。尽管发生了这种变化,但它保持了实时推理速度,这对于许多用例至关重要,同时通过注意力策略和整体网络设计的创新改进实现了先进的准确性。在这两种模型中,YOLOv12结构因其改进的容量和在复杂场景中需要高精度的任务中的详细特征提取能力而受到青睐。

Karamüftüoğlu的研究结果与我们的分析一致。RT-DETR-X模型取得了最高的整体准确性(0.434),但YOLOv12x模型的平衡性更好。YOLOv12x的精确度为0.442,几乎与RT-DETR-X的0.440相当,并显著超过了RT-DETR-L的0.326。更高的精确度意味着更少的假阳性结果。然而,YOLOv12x较低的敏感性(0.333)意味着可能会遗漏一些更具挑战性的病变。其轻量级架构和准确性使其非常适合高速应用[45]。相比之下,Saber等人应用YOLOv8、YOLOv11和YOLOv12进行根尖牙周炎的自动检测,结果显示YOLOv12m的准确性最高(89.1%),YOLOv11m的表现也很出色(F1分数:87.1%,尤其在检测早期病变[PAI分数1和2]方面)。这些结果证实了轻量级YOLO模型能够识别特定病理,因此非常适合临床筛查和诊断[30]。在这方面,我们的研究是首次使用YOLOv12x和YOLOv12x-pose模型在全景X光片中检测OIEARR的研究。

虽然OD和PE方法基于深度学习,在图像分割和分类方面有效,但它们的结构差异直接影响模型性能,尤其是在处理形态细节的重要性时。对于OD模型,它根据包含冠部和根部区域的预测边界框的垂直维度来估计根部长度,平均绝对误差为3.13%,标准差为5.85%。模型较高的误差和变异性可以归因于几个因素:边界框预测包括了非解剖学背景区域,并且对边界定位的微小不准确性很敏感,特别是在根尖和切缘边界处。其次,它们容易受到变形、牙齿倾斜和冠根重叠变化的影响。因此,边界框高度的微小偏差可能会导致派生的根部长度比例出现放大误差。PE模型通过预测解剖学标志点来计算根部长度,表现出更高的测量稳定性,平均误差为0.74%,标准差为1.81%,表明其准确性和样本间的分散度更低。PE模型的优越性能源于其基于解剖学的约束形式,可以直接定位关键点,使得测量过程对噪声和影响不那么敏感。标准化坐标和基于冠部的校正稳定了距离,特别是在比较治疗前后的图像时。从临床角度来看,这些发现表明,基于PE的方法在测量轻微或早期阶段的根部吸收时更加可靠,因为需要精确检测微小变化。然而,基于边界框的根部长度测量可能不太适合检测细微的变化。

当检查混淆矩阵时,观察到两种不同方法之间存在显著的性能差异。在OD模型中,许多被标记为1级的病例被错误地分类为0级。这表明吸收的早期阶段与低水平混淆在一起,模型无法充分区分类别边界,表明其在区分0级病例方面存在显著困难,以及检测早期吸收的能力有限。此外,在2级中也观察到了类似1级和3级之间的混淆。这些误差分布可能与OD模型仅基于边界框内的总体图像信息进行分类决策有关,无法充分表示局部形态细节。另一方面,PE模型能够在每个类别中进行更清晰、无误的区分。只有6个例子被分类为0级,而在其他类别中的交叉混合非常少。这表明PE模型在避免假阳性方面更有效,同时在识别健康根部时保持了敏感性。对于2级,结果强调了PE模型捕捉根尖区域中度结构变化的增强能力。对于3级,模型的命中率接近100%。尽管准确率相似,但PE模型的较高召回率和F1分数突出了其在检测严重病例时较低的假阴性率。这些发现清楚地表明,PE模型提供了在所有根部吸收阶段都更加平衡和临床可靠的分类方法,尤其是在诊断敏感性最为关键的早期和中度阶段。

Chen等人[46]使用基于OD方法的R-CNN架构,实现了高精度的全牙定位;然而,牙齿编号需要额外的后处理来提高分类性能。Tichy等人[47]和Pérez等人[48]报告称,在使用OD注释的低对比度龋齿病变中,专家共识较低且误分类频繁发生,这突显了基于OD的模型在捕捉细微形态细节方面的局限性。同样,在本研究中,OD模型在区分早期根部吸收(0-1级)方面的能力有限。相反,PE模型在关键类别中表现出高精度、AUC和F1分数。这表明能够有效捕捉局部形态特征的架构有助于提高可靠性。

在文献中,基于局部信息的深度学习方法在自动分类根部吸收方面仍然有限,使本研究成为这一领域的开创性贡献[20,21,22, 49,50,51]。准确分类早期吸收,特别是0级和1级,对于临床管理和患者监测非常重要。在这种情况下,OD模型对形态细节的有限敏感性突显了未来系统需要发展成支持额外层(如分割)的混合模型的潜在需求[52]。本研究证明,具有更高详细分析能力的架构在AI辅助牙科诊断系统的临床准确性方面具有显著优势。ROC分析被广泛认为是一种可靠的方法,用于评估医学AI应用中模型的鲁棒性,特别是在区分具有挑战性的类别(如1级和2级)时[53]。根部长度是根据模型(PE或OD)从治疗前图像的估计值和治疗后图像的根部长度计算得出的,然后根据这些百分比分配0-3级。因此,ROC曲线不是由连续分数模型生成的;所有这些过程直接生成等级。ROC是通过将临床类别划分为一对一对的形式获得的。在这种情况下,ROC结构是多类的,但每个类别都绘制了一个二进制的ROC。这种二进制结构形成了相关类别的ROC曲线。在这种方法中,ROC曲线是通过基于类别与其他类别区分的所有真实敏感性和假阳性率对来生成的。这是文献中用于进行多类分类且不产生连续分数的模型的标准ROC方法[54](例如随机森林、SVM、决策树和一些YOLO变体)。

图1 基于纳入和排除标准的患者选择流程图
图2 YOLOv12x姿态估计模型中用于识别上颌门牙根部吸收的12个关键点的示意图
图3 YOLOv12x对象检测模型中用于识别上颌门牙根部吸收的8个边界框的示意图
图4 本研究中使用的基于YOLOv12的对象检测(顶部)和姿态估计(底部)模型的架构工作流程
图5 总结研究工作流程和方法步骤的流程图
图6 使用基于YOLOv12的对象检测和姿态估计模型评估的四个根部吸收等级的混淆矩阵。对角线值表示正确分类的实例,而非对角线值表示不同吸收等级之间的误分类
图7 基于YOLOv12的对象检测和姿态估计模型的接收者操作特征(ROC)曲线。这些曲线展示了模型在四个根部吸收等级中的诊断性能。接近1.0的AUC值表示更高的分类可靠性和更好的区分能力

在本研究中,PE模型显示的曲线更接近理想点(0,1),表明其性能更优。这表明该模型提供了高真阳性率并将假阳性率降至最低。这种情况表明,所提出的PE方法在高灵敏度和低误报率方面表现出色,在临床决策过程中更为可靠。基于YOLOv12的PE方法在所有指标上均优于OD模型。PE模型的准确率达到了93%,显著高于OD模型的78%。PE方法在灵敏度和特异性上的优势尤为突出。这种差异在1级和2级病例中尤为明显,因为这些病例的诊断不确定性通常较高。PE模型在这些边缘类别中的召回率和F1分数的提升非常重要,因为它们直接影响到在最早阶段检测吸收现象的能力,从而实现及时的临床干预。Xu等人[21]评估了六种基于CNN的模型,用于通过牙齿切片对OIEARR进行分类,取得了较高的AUC值。然而,由于形态学上的微妙差异,轻度OIEARR病例被误分类了。相比之下,我们的研究使用了基于YOLOv12的模型处理全景X光片,获得了0.88到0.95之间的AUC值,在早期吸收(0-1级)方面表现更为优异。与基于切片的CNN不同,我们的模型直接使用全景X光片而不需要进行分割,因此具有更高的临床适用性。尽管AUC值略低,但我们的方法展示了更强的鲁棒性和实用性。Reduwan等人[22]测试了多种深度学习模型用于从CBCT数据中自动检测外部根吸收,并报告RF+VGG组合取得了最佳结果,AUC为96%,准确率为81.9%。然而,这项研究仅针对拔除的前磨牙的CBCT扫描进行,未能充分反映临床情况的多样性。Pirayesh等人[55]专注于使用深度学习方法检测犬引起的根吸收,但他们的研究受到样本量小、采用二元分类方法以及依赖CBCT成像的局限。这些因素限制了模型的泛化能力和临床实用性。相比之下,我们的研究使用了更大、更具代表性的数据集,应用多类分类来区分吸收的严重程度,并使用全景X光片提供了更易于获取、成本效益更高的解决方案。值得注意的是,基于YOLOv12的PE架构在早期和中期吸收阶段的灵敏度和F1分数方面表现出色,这凸显了其在临床决策支持系统中的潜力。从临床适用性的角度来看,YOLOv12x架构在计算效率上具有显著优势。尽管这些模型的准确率很高,但它们经过了快速推断的优化,在标准配置的工作电脑上,物体检测和姿态估计模型可以在500毫秒内处理完一张 dental X光片。因此,整个计算过程和生成最终报告的时间不到1秒。关于硬件要求,虽然训练阶段使用了高性能GPU,但训练好的模型可以轻松转换为TensorRT或OpenVINO等优化框架,并且通过这些技术能够在入门级的消费级显卡甚至现代CPU上运行。尽管尚未为该技术开发专门的界面,但作者计划未来将其发展为专用程序/软件,相关研究正在进行中。尽管这项研究取得了有希望的结果,但仍需承认一些局限性。首先,分析范围仅限于上颌中切牙和侧切牙,因此模型在检测前磨牙和磨牙吸收方面的性能尚未经过验证,限制了研究结果在其他牙齿群体中的泛化能力。其次,使用二维全景X光片本身限制了与三维成像模式(如CBCT)相比评估吸收病变深度和体积范围的能力。尽管如此,出于伦理考虑和患者安全方面的考虑,为每位正畸患者在治疗前后获取CBCT扫描在临床上是不可行的。第三,本研究仅使用了YOLOv12架构,没有比较其他深度学习模型。未来涉及多种架构和混合框架以及更大样本量的研究可能会进一步提高诊断性能和鲁棒性。

结论
在评估的两种AI模型中,基于YOLOv12的PE模型在所有吸收等级上表现出了明显优于OD模型的性能,尤其是在诊断不确定性最高的早期和中期阶段。通过利用精细的解剖定位,PE模型在准确率、灵敏度和F1分数方面均超过了基于OD的方法,提供了一个更可靠且具有临床价值的评估框架。这些发现强调了基于PE的关键点检测系统在提高诊断精度和促进正畸治疗计划早期干预方面的潜力。鉴于其易用性、可扩展性和高诊断准确性,所提出的AI系统代表了AI辅助正畸诊断的重大进步,可能成为日常临床实践中的宝贵决策支持工具。

生物通微信公众号
微信
新浪微博


生物通 版权所有