法赫达·阿尔马沙德 | 萨吉德·乌拉·汗
信息系统系,计算机工程与科学学院,萨塔姆·本·阿卜杜勒阿齐兹王子大学,阿尔卡尔吉,11942,沙特阿拉伯
**摘要**
龋齿仍然是全球最常见的疾病之一;因此,早期和可靠的检测对于减缓疾病进展和治疗成本至关重要。然而,现有的低剂量牙科图像的先进算法仍然受到泊松噪声的影响,这会影响到像素值和边缘信息,同时缺乏标注良好的数据集以及解释能力有限。为了解决这些问题,我们提出了一种新颖的自适应深度学习模型,用于在噪声牙科图像中分析龋齿。首先,我们提出了一种新的层区分泊松噪声减少算法,以减少低剂量牙科X光图像中的泊松噪声。我们提出的噪声减少算法通过仅检测受噪声影响的像素来改善牙科结构,而不影响未受损的像素。它将受损和未受损的像素分组并分别处理,仅去除受损像素的噪声。随后,应用了升级版的轻量级MobileNetV3来从增强后的X光图像中提取有意义的细节。最后,结合U-Net启发式的解码器,使用swin变换器来检测龋齿并生成显示增强后X光图像中像素级细节的准确掩膜。我们的模型使用多个数据集进行了评估,取得了94.11%的准确率、96.03的灵敏度、0.98的AUC和96.5的分类准确率。结果表明,我们提出的泊松噪声减少算法在实现高PSNR和低MSE方面是有效的。我们的模型具有高准确率、灵敏度、特异性、F1分数、AUC和Kappa值,推动了低剂量牙科X光成像中龋齿的自动化检测。
**1. 引言**
龋齿是一个影响所有年龄段人群的重大健康问题。根据世界卫生组织(WHO)的数据,60%到90%的学龄儿童患有龋齿。早期龋齿发展迅速,如果不加以治疗,会对牙齿造成严重损害(Pitts等人,2017年)。在早期阶段识别龋齿对于预防并发症和采用有效的预防方法至关重要(Khan等人,2025年;Van Daatselaar等人,2004年)。牙科成像是一种常用的方法,可以帮助牙医发现临床评估中可能被忽略的相邻和复杂的异常情况。手动解读低剂量牙科图像可能存在主观性,这意味着不同的牙医可能会看到不同的情况,尤其是在早期龋齿迹象方面。此外,由噪声和曝光不足导致的图像质量下降会降低诊断的准确性。
如今,人工智能(AI),特别是深度学习(DL)模型,在自动化医学图像处理任务中取得了有希望的结果。卷积神经网络(CNN)在疾病分类、分割和检测方面表现出最佳性能,涵盖了皮肤病学、眼科和牙科等多个医学领域(Espelid等人,1985年;Litjens等人,2017年)。然而,CNN在龋齿检测中的应用存在许多缺点。CNN及其家族主要关注局部特征,但在表示多颗牙齿的整体解剖结构方面效果不佳(Chen等人,2024年)。此外,这些模型无法从噪声严重的牙科图像中检测出龋齿,并且在来自不同模态的数据上的泛化能力较弱(Kim等人,2024年)。在医疗保健中应用DL模型的一个重大挑战是它们缺乏解释性。大多数CNN模型无法解释其预测方式,这在医学上是一个重要的缺点。然而,为了做出明智的临床决策,透明度和对AI结果的信任是必不可少的(Kim等人,2024年;Tjoa & Guan,2020年)。
为了克服这些挑战,本研究提出了一种使用低剂量牙科图像进行自动化龋齿检测的新深度学习模型。首先,提出了一种新的层分组泊松噪声算法,用于检测和分类低剂量牙科图像中受泊松噪声影响的像素,从而改善图像质量。然后,应用了升级版的轻量级MobileNetV3网络从增强后的X光图像中提取有意义的细节。最后,结合U-Net启发式的解码器,使用swin变换器来检测龋齿并生成显示增强后X光图像中像素级细节的准确掩膜。我们的模型使用多个数据集进行了评估,取得了94.11%的准确率、96.03的灵敏度、0.98的AUC和96.5的分类准确率。结果表明,我们提出的泊松噪声减少算法在实现高PSNR和低MSE方面是有效的。我们的模型具有高准确率、灵敏度、特异性、F1分数、AUC、Kappa值和MCC值,推动了低剂量牙科X光成像中龋齿的自动化检测。
**2. 文献综述**
龋齿是全球范围内最普遍的慢性口腔疾病之一,如果未能及早发现,会导致显著的疼痛、感染和牙齿丧失。传统的龋齿检测技术主要依赖于视觉筛查和咬翼片及根尖X光的检查。然而,这些方法常常面临挑战,包括主观性、检查者之间的差异以及识别早期或邻间病变的灵敏度低(Chen等人,2024年;Espelid等人,1985年)。人工智能在提高龋齿检测方面做出了重要贡献。一些科学研究通过采用多种AI技术提高了检测的准确性。Zhu等人(2023年)提出的CariesNet深度学习模型从全景X光图像中对龋齿病变进行了多阶段分割,该模型采用了与Res2Net集成的智能注意力模块作为核心。CariesNet是一个全球可扩展的U形编码器-解码器框架,能够以93.61%的准确率和93.64的平均Dice系数对全景放射照片中的三个阶段的龋齿进行分类。尽管它在分割龋齿病变方面取得了成功,但计算需求限制了其资源效率。
最近,Dayı等人(2023年)提出了一种用于龋齿检测的网络(DCDNet),其特点是多预测输出(MPO)结构,这使其与其他分割架构区分开来。Alharbi等人(2023年)提出了一种U-Net模型来检测牙科图像中的龋齿。首先,通过对图像进行标记以标记龋洞,创建了相应的真实二值图像。然后,使用图像放大方法来改进龋洞边界的识别。该研究评估了三种先进的模型,即U-Net、U-Net++和U-Net3+,并发现U-Net3+的准确率更高(95%)。然而,结果表明U-Net3+模型计算复杂,需要比现有最佳模型更多的计算时间。Lee等人(2021年)提出了一种U形深度CNN网络,用于从曝光不足的咬翼片X光中检测龋齿,该模型的灵敏度更高。然而,这一模型是在特定的小数据集上评估的。Bayraktar和Ayan(2022年)提出了一种YOLO CNN模型,用于从高质量牙科图像中识别龋齿,该模型具有较高的准确率,但在使用大规模数据集时性能下降。此外,Kim等人(2023年)开发了一种牙科护理模型,用于评估上颌和下颌牙齿的牙科图像,该模型能够有效检测牙科异常并评估是否需要非专业牙科治疗(NPDT)。研究人员使用包含612个复合体和5,251张牙齿图像的数据集评估了两个标准:牙齿疾病和NPDT分类。Yoon等人(2024年)提出了一种新的R-CNN模型用于龋齿检测,该模型使用边界框方法进行图像注释,包括图像位置、阶段和状态等细节。R-CNN在牙齿数量检测方面取得了令人满意的结果,准确率为0.880,在龋齿检测方面的平均mAP为0.769。目前,基于变换器的模型被用于类似任务,但由于计算要求高,在牙科成像中的应用较少(Luo等人,2021年)。此外,这项研究没有包括可解释AI(XAI)技术。XAI技术可以阐明卷积神经网络(CNN)的决策过程,而这些网络通常不透明。替代方法,如Grad-CAM和EigenCAM,可以增强AI的决策过程,从而提高最终结果的验证性(Giavina-Bianchi等人,2023年)。
研究人员开发了多种先进的DL模型用于龋齿检测,但这些创新很少转化为实际解决方案。一个重要的改进是使系统能够适应不同的输入。本研究提出了一种使用低剂量牙科图像进行自动化龋齿检测的新深度学习模型。表1展示了与我们提出的模型相比的现有最佳模型。
**表1. 提出的模型与现有最佳模型的比较分析**
| 模型/架构 | 模式 | 主要优势 | 局限性 |
| --- | --- | --- | --- |
| Zhu等人(2023年) | CariesNet: Res2Net + Attention + U形编码器-解码器 | 全景X光 | 准确的多阶段龋齿分割;强Dice系数(93.64%) | 计算成本高;不适合实时或移动部署 |
| Dayı等人(2023年) | U-Net, U-Net++, U-Net3+ | 全景X光 | 高分割准确率(高达95%);良好的边界检测 | U-Net3+计算复杂且处理非龋齿图像能力差 |
| Zhou等人(2018年) | UNet++ | 医学(通用) | 嵌套跳跃连接提高了特征重用 | 未针对牙科领域设计;缺乏模态泛化 |
| Huang等人(2020年) | UNet3+ | 医学(通用) | 全尺度连接设计;高分割准确率 | 模型庞大;仅适用于单类型图像;未针对牙科龋齿优化 |
| Park等人(2022年) | VGG16 + CNN | 口内照片 | 适用于非放射图像;适用于视觉数据集 | 在放射照片上的特征泛化能力弱;缺乏解释工具 |
| Mourya和Patil(2024年) | ResNet-50 + Adam优化器 | 咬翼片X光 | 收敛速度快;使用预训练的ResNet | 缺乏分割和解释能力;对早期龋齿效果不佳 |
| Ozdemir等人(2026年) | DenseNet121-C | 牙科X光 | 通过深度层提高学习性能 | 无泊松噪声减少;基本CNN;全局上下文建模能力弱 |
**3. 提出的方法**
在本文中,我们提出了一种可解释且计算效率高的深度学习框架,用于自动检测和分割放射图像中的龋齿。该模型旨在克服计算机辅助牙科诊断中的主要问题,如图像噪声、对比度低、解剖结构建模不足以及缺乏解释性。我们提出的框架的主要目标是提高早期到晚期龋齿病变的诊断准确性,同时提供一种轻量级、可扩展的方法,适用于实际临床环境。图1展示了我们提出模型的框图。
**3.1. 数据集收集**
许多关于基于X光的牙科诊断的研究受到数据集中图像数量的限制。大型数据集可以创建具有更多模型参数的复杂模型,从而保留更多细节,并识别牙齿纹理中的细微异常,如早期龋齿。由于光子穿透不足、光子随机丢失以及探测器尺寸等问题,本研究使用的牙科X光图像中存在泊松噪声。因此,我们提出的去噪模块主要针对实际临床X光图像中的噪声进行了评估。此外,为了进一步评估所提出去噪算法的鲁棒性,我们还进行了合成泊松噪声注入实验。如图10所示,引入了不同密度的噪声水平,以模拟低剂量X光采集中常见的随机光子检测过程。预处理的数据集在提高AI算法的性能和泛化能力方面起着关键作用。在本研究中,我们使用了两个不同的数据集。私人数据集来自巴基斯坦KPK地区的Rehman Medical Institute (RMI),公共数据集则来源于Kaggle。最终的联合数据集包含19700张牙科图像,包括正常图像和龋齿图像。在咨询了牙医后,我们移除了所有需要核心修复、桥接、桩柱、填充或适当治疗的图像。最终数据集由13427张正常X光片和6273张龋齿X光片组成。为了实现类别平衡,我们对正常X光片进行了数据增强处理。这些数据集被合并以创建一个反映不同采集环境和成像条件的异构数据集。数据集被分为三类:70%用于训练,15%用于验证,15%用于测试,以确保分布的一致性。为了减少任何偏见,我们使用可用的元数据对数据集类别进行了分割,以确保结果的公正性。图2展示了样本X光片。下载:下载高分辨率图像(407KB)下载:下载全尺寸图像图2. 数据集中的样本X光片。
3.2 数据预处理
在下一阶段,剩余的图像被调整大小并转换为JPG格式。为了实现一致性和增强对比度,应用了最小-最大值和z分数归一化技术。此外,还应用了数据增强技术来解决训练过程中的过拟合问题。我们仅对训练集进行了增强处理,确保没有增强的图像出现在验证集或测试集中。这种方法有助于防止信息泄露,并避免过度提升性能。为了获得对模型的公平和准确的评估,我们采用了5折交叉验证方案,将数据分为五个相等的子集,每个子集的类别比例相同(龋齿和正常)。在每次迭代中,使用四个子集进行训练,一个子集保留用于测试。此外,为了调整超参数,我们使用了来自训练集的3折内部交叉验证。我们使用McNemar检验、AUC和Cohen's k来分别比较AUC和分类错误,并评估统计显著性,如表3所示。图3展示了增强过程。下载:下载高分辨率图像(338KB)下载:下载全尺寸图像图3. 增强过程。
最后,牙科图像需要标注以突出显示受龋齿影响的区域。在RMI的一位资深牙医的帮助下,所有受蛀牙影响的图像都被手动标记出来,以突出显示蛀牙的位置。然后我们使用专家的手动标注进行了数字标注。在标注过程中,使用了Labkit刷子工具来突出每个龋齿病变上方的区域。标注是使用Fiji(最新版本的ImageJ2)和LabKit插件完成的。专家的手动标注被数字化,如图4所示,每个生成的掩膜都保存为TIFF格式。标注确认了所提出模型在龋齿分割方面的准确性和效率。下载:下载高分辨率图像(228KB)下载:下载全尺寸图像图4. 数据标注过程。
3.3 提出的泊松噪声减少模块
我们提出了一种新颖的泊松噪声减少算法,该算法利用自适应窗口机制,消除边界分割的高点和低点,以提高后续处理结果图像的质量。初始阶段引入了一种新的边界分离技术,该技术移除了最大和最小灰度值,并使用了灵活的滤波器核大小。这种方法在恢复受高达90%泊松噪声影响的图像方面显示出有效性。我们提出的方法采用了一个5x5的窗口,通过经验方法分析每个像素,检测损坏的、未损坏的和边缘像素。较大的窗口大小可以加速计算,但会导致模糊;而较小的窗口大小可以在计算步骤增加的情况下提高清晰度。图5显示了使用不同核大小恢复的256x256图像的MSE和PSNR。提出的滤波技术包括两个循环,第二个循环在特定条件下开始。如果某个像素可能受到噪声的影响,则应用第二次迭代进行进一步验证。为了评估被检查像素的真实性,我们根据经验确定了5x5的窗口大小。在像素被分类为损坏的情况下(即它不在中心组(第1组和第2组),在第二次迭代中应用3x3的窗口。这种方法通过局部统计方法促进了像素的集中分析,从而确保系统地解决了噪声影响。下载:下载高分辨率图像(209KB)下载:下载全尺寸图像图5. MSE和PSNR结果(自适应窗口大小)。
所提出算法的伪代码如下,该算法使用灵活的窗口大小在泊松噪声下进行鲁棒的像素分类。图6展示了我们提出的噪声像素检测和分类算法的流程图,图7展示了提出的噪声像素恢复算法。Algo_1 使用灵活窗口大小进行分组输入:大小为M × N的灰度图像Img 输出:分类后的像素Img(p, q)1: 对Img中的每个像素位置(p, q)执行2: 初始化核大小Ksize ← 5 × 53: 重复4: 提取邻域:5: Nk ← { Img(p + i, q + j) | (i, j) ∈ Ksize 以(p, q)为中心 }6: 7: 构建强度向量:8: Vec ← reshape(Nk)9: 10: 对强度值进行排序:11: Vec_sorted ← sort(Vec)12: 13: 计算极端灰度值:14: Gmin ← min(Vec_sorted)15: Gmax ← max(Vec_sorted)16: 17: 计算相邻强度差异:18: DVec ← { Vec_sorted[k+1] − Vec_sorted[k]19: |k = 1, …, |Vec_sorted| − 1}20: 21: 识别向量中心的最大差异:22: MaxGap ← max(DVec_center)23: 24: 确定中心强度:25: Gc ← median(Vec_sorted)26: 27: 形成强度层:28: Group1 ← { g ∈ Nk | |g − Gc| < τ1 }29: Group2 ← { g ∈ Nk | τ1 ≤ |g − Gc| < τ2 }30: Group3 ← { g ∈ Nk | |g − Gc| ≥ τ2 }31: 32: 对当前像素进行分类:33: 如果Img(p, q) ∈ Layer1,则34: 将Img(p, q)标记为未损坏35: 结束if37: 38: 减小核大小:39: Ksize ← 3 × 340: 直到Ksize = 3 × 341: 结束for下载:下载高分辨率图像(436KB)下载:下载全尺寸图像图6. 噪声像素检测和分类算法。下载:下载高分辨率图像(436KB)下载:下载全尺寸图像图7. 提出的像素恢复算法。
当所有步骤完成后,会创建一个二进制决策矩阵(BD_Mtx),其中“1”表示损坏的像素,“0”表示未损坏的像素。我们接下来提出的像素恢复算法将使用BD_Mtx矩阵将所有这些像素替换为灰度值“1”。恢复过程从选择扭曲图像中的第一个像素开始,并选择BD_Mtx中对应的像素。如果BD_Mtx中的值为“0”,算法将继续处理下一个像素,直到遇到被认为是未损坏的像素。当在BD_Mtx中出现“1”时,将在损坏图像和BD_Mtx中的指定像素上应用3x3窗口。随后,在BD_Mtx中搜索“0”,并将所有相关像素聚合到一个名为Vect的向量中。然后分析向量Vect,如果没有找到像素,则继续处理下一个像素。对Vect应用维纳滤波器,并用维纳滤波后的值替换选中的像素。恢复过程遵循指定的步骤。Algo_2 使用二进制决策矩阵进行像素恢复输入:大小为M × N的噪声图像Img,大小为M × N的二进制决策矩阵BD_Mtx 输出:恢复后的图像RImg1: 初始化RImg ← Img2: 对于p = 1到M执行3: 对于q = 1到N执行4: // 如果像素被标记为未损坏,则跳过恢复5: 如果BD_Mtx(p, q) ≠ 1,则继续6: 结束if8:9: // 定义(p, q)周围的3 × 3邻域10: NkI ← { Img(p + u, q + v) |u, v ∈ {−1, 0, 1} 且在图像范围内 }11: NkBD ← { BD_Mtx(p + u, q + v) |u, v ∈ {−1, 0, 1} 且在图像范围内 }12:13: // 收集候选的未损坏邻居强度14: Vec ← ∅15: 对于(NkI, NkBD)中的每个对应元素(g, b)执行16: 如果b = 0,则17: Vec ← Vec ∪ { g }18: 结束if19: 结束for20:21: // 如果存在有效的候选者,则恢复当前的损坏像素22: 如果Vec ≠ ∅,则23: RImg(p, q) ← Wiener(Vec)24: 否则25: // 未找到可靠的邻居:保持原样或推迟(实现依赖)26: RImg(p, q) ← Img(p, q)27: 结束if28:29: 结束for30: 结束for31: 返回RImg
3.4 MobileNetV3骨干网络用于轻量级特征提取
增强后的牙科图像被发送到我们的第二个轻量级MobileNetV3模型中,以提取有意义的局部细节,因为它能够执行硬swish激活,并使用倒置残差块和深度可分离卷积,从而以较低的计算成本从低剂量X光片中提取丰富的空间细节。我们的MobileNetV3模型被划分为许多子块,这些子块将输入特征转换为更具辨别力和紧凑性的表示。扩展层的第一阶段是输入特征图(Fi-1),由方程(4)表示。4 [数学处理错误]Ei=ReLU(Wexp∗Fi−1+bexp)这里Wexp和bexp是扩展层的权重和偏置,它们在保持空间结构的同时避免了通道间的混合。深度可分离卷积使用3 × 3的空间滤波器对每个通道分别进行处理,如方程(5)所示。5 [数学处理错误]Di=DepthwseConv3×3(Ei)之后,应用挤压-激励(SE)模块来增强通道选择性。在这一步中,首先进行全局平均池化,然后是两个具有ReLU和sigmoid激活的全连接层,如方程(6, 7)所示。6 [数学处理错误]si=GAP(Di)=1H×W∑h=1H∑w=1WDi(h,w)7 [数学处理错误]zi=σ(W2·δ(W1·si))这里[数学处理错误]δ(·)是ReLu,[数学处理错误]σ(·)是sigmoid函数,W1, W2是学习到的权重。可以使用方程(8)计算重新校准的结果。8 [数学处理错误]si=Di·zi这个结果图像被传递到投影层,以减少通道数量到Cout,然后应用硬swish激活函数来增强非线性和计算成本,如方程(9, 10)所示。9 [数学处理错误]Pi=Wproj∗Si+bproj10 [数学处理错误]HdSwish(x)=x.ReLU6(x+3)整个MobileNetV3块的转换可以使用方程(11)计算。11 [数学处理错误]Fi=HdSwish(Conv1×1(SE(DepthwseConv(Ei))))最终特征图是通过在B个瓶颈块上重复整个过程计算得到的,如方程(12)所示。12 [数学处理错误]F=FB∈RH′×W′×C这一阶段识别与牙科龋齿相关的局部纹理和结构模式,如病变边界、牙釉质弱点和邻间阴影。MobileNetV3高效且有助于创建紧凑和详细的特征。这允许swin变压器模块有效地识别全局解剖连接。图5显示了MobileNetV3的块图。
3.5 建模长距离上下文依赖性
在局部聚焦特征提取之后,去噪和空间压缩的特征图被输入到Swin Transformer编码器中,该编码器用于建模牙科X光片中的长距离上下文依赖性。与在固定感受野内操作的卷积模型不同,Swin Transformer提供了一种分层视觉变换器设计,通过基于窗口的自注意力和移动窗口实现局部关注和全局推理。输入特征图被划分为不重叠的M × M窗口,并使用传统的缩放点积注意力公式计算多头自注意力(MSA),如方程(13)所示。13 [数学处理错误]Attention(Q,K,V)=Softmax(QKTd)这里,Q、K和V分别代表查询矩阵、键矩阵和值矩阵。Swin Transformer的能力称为移动窗口MSA,它通过交替层实现窗口之间的交互。它实现了空间连续性和来自多个补丁的语义信息的整合,这对于识别各种牙科疾病至关重要。如方程(14)所示,每一步连接补丁都会降低空间分辨率,但会加倍通道维度。14 [数学处理错误]F′=Concat(Fi,j,Fi+1,j,Fi+1,j+1)·Wmerg+b这种方法使模型能够在不同尺度上很好地工作,通过池化层实现。每个块的输出使用残差连接计算,如方程(15)所示。15 [数学处理错误]Fout=MLP(LN(MSA(LN(F))))+MSA(LN(F))该模型通过确保稳定性和学习准确性来提高龋齿检测的准确性。它融合了解剖和结构细节,以提高整体效率。
3.6 解码器和输出头
在这一步中,解码器模块评估特征图并重建它以提供详细的预测。它采用U-Net结构,如方程(16)所示。16 [数学处理错误]Fiup=ReLU(BN(Conv3×3(Upsam(Fi+1))))它增加了空间细节,并在每个分辨率级别整合了前一步骤中的关系。这种方法有助于准确检测牙科龋齿,特别是需要精确像素级细节的早期病变。解码器的最终输出分为两类:分割和分类。分割头使用1 × 1卷积和sigmoid或softmax激活生成逐像素的龋齿概率图,如方程(17)所示;图像分类使用方程(18)进行。17 [数学处理错误]Pseg=σ(Conv1×1(F0))18 [数学处理错误]Pclass=Softmax(Wcls·GAP(F0)+bcls这里,Wcls和bcls是分类层的可学习权重和偏置。为了联合训练模型,使用了复合损失函数,如方程(19)所示。19 [数学处理错误]Ltotal=λ1Lseg+λ2Lcls其中[数学处理错误]λ1和[数学处理错误]λ2是权重因子。所提出的用于噪声牙科图像中龋齿分类的新深度学习模型。以下部分展示了我们提出模型的定量和定性结果。
4. 结果与讨论
我们使用标记的牙科X光片测试了我们的框架。该数据集包含咬翼片和根尖片。我们使用了几种参数来评估框架的性能,包括准确性、精确度、召回率、F1分数、Dice系数和AUC。在评估我们提出的框架之前,首先,我们使用多张牙科X光片测试了我们的新型泊松噪声降低算法。以下是包含和不包含分层分组算法的我们提出框架的定量和定性结果。这清楚地说明了在提出的框架中加入泊松噪声降低模块的影响。表2显示了我们提出的泊松噪声降低模块的影响。
表2. 提出的分层分组泊松噪声降低的影响。
统计参数
不包含提出的噪声降低算法
包含提出的噪声降低模块
差异
准确率 93.3% 94.11% 3.67%
F1分数(平均值)92.6% 96.48% 3.88%
AUC 0.964 0.989 0.025
Dice系数 0.87 0.91 0.04
IoU 0.79 0.84 0.05
推理稳定性 中等 高
鲁棒性
表3. 提出的方法和SOTA方法的整体性能比较。
模型 F1分数 敏感性(%)特异性(%)AUC 准确率(%)Kappa MCC p值
与提出的方法相比
Zhu等人(2023)0.889 0.386 0.840.908 8.440.760.79 0.017
Dayı等人(2023)0.839 0.178 2.710.899 0.210.840.82 0.044
Zhou等人(2018)0.848 8.018 3.110.888 2.910.780.81 0.015
Huang等人(2020)0.929 3.419 0.910.959 1.740.890.880.310
Park等人(2022)0.878 9.078 7.230.918 6.170.780.79 0.030
Mourya和Patil(2024)0.889 1.418 8.990.939 0.810.820.86 0.035
Ozdemir等人(2026)0.919 3.718 9.750.939 1.160.870.87 0.037
提出的方法 0.959 6.039 2.110.989 4.110.920.92
表2清楚地表明了我们提出的泊松噪声降低算法的有效性。它有效地提高了整体模型性能,证实了有效的去噪有助于更好的病变定位和更高的诊断准确性。图8显示了我们提出的泊松噪声降低算法与最先进(SOTA)方法的比较结果。
图8. 去噪结果的比较(Jerlin等人,2025年;Liang等人,2021年;Liu和Tan,2024年;Zhang等人,2018年)。
图8展示了提出的方法和SOTA方法在去噪牙科X光片方面的定性结果。第一列显示了原始的带噪声图像,而后续列显示了SOTA方法和我们提出方法的去噪结果。我们提出的噪声降低算法保留了解剖细节,并且比竞争方法更好地减少了噪声。同样,图9展示了多张X光片上的龋齿分割结果。
图9. 龋齿分割结果。
图10. 不同噪声水平下,包含和不包含我们提出的泊松噪声降低算法的SSIM、PSNR和MSE的变化。
图9展示了使用和不使用我们提出的噪声降低算法的龋齿检测和分割性能的视觉评估。左列显示了应用提出算法之前的结果,右列显示了应用算法之后的结果。每一行代表一个单独的牙科X光片案例,龋齿区域用绿色突出显示以表示检测到的龋齿,黄色表示分割掩码。在左列中,噪声较高的图像影响了牙齿结构,绿色突出显示的龋齿区域不够精确且分散。这表明使用我们提出的噪声降低算法处理的图像具有更好的清晰度和结构,并且与病变边界紧密对齐。图10显示了我们提出的泊松噪声降低算法的MSE、PSNR和SSIM结果。
图11和图12展示了我们的模型在未见过的牙科图像上的真正例和假正例分类结果,图13和图14展示了我们的模型在未见过的牙科图像上的假正例和假负例分类结果。
图15展示了提出的方法和SOTA方法在标准评估指标上的视觉比较。
图15. 提出的方法和SOTA方法的视觉比较。
定性比较了不同最先进(SOTA)方法与提出的框架在牙科X光片上的分割性能。在第一行中,每个输出中的红色块表示预期的龋齿病变,而蓝色轮廓表示模型生成的边界。在(Huang等人,2020年;Ozdemir等人,2026年;Park等人,2022年)中提出的方法取得了良好的分割结果,而在(Alharbi等人,2023年;Ozdemir等人,2026年;Zhu等人,2023年)中提出的方法未能一致地检测到边界。然而,我们提出的模型优于所有SOTA方法,并取得了准确且一致的结果。第二行显示了使用单颗牙齿牙科图像对我们提出的方法和SOTA方法进行的比较分析,以评估所有模型的直接并排分析。结果显示,在(Alharbi等人,2023年;Huang等人,2020年)中提出的方法识别出了病变;然而,这些方法过度覆盖了周围区域。其他方法,如(Park等人,2022年;Zhu等人,2023年)中的方法,边缘控制不足。然而,我们提出的模型准确生成了与专家注释紧密对齐的病变掩码。在第三行中,应用了确切的机制来评估分割性能,再次证明SOTA方法未能提供一致的结果。在(Alharbi等人,2023年;Ozdemir等人,2026年;Zhu等人,2023年)中提出的研究给出了精确的区域,但结构背景整合较少。在这种情况下,我们提出的模型成功检测到了龋齿,并减少了背景噪声和边界。
我们还进行了标准评估指标,以评估我们提出的模型相对于SOTA模型的有效性。表3总结了比较性能结果,清楚地显示了我们提出模型的优越准确性。
表3显示,提出的框架在每个关键指标上都超过了所有SOTA方法,准确率为94.11%,敏感性为96.03%,AUC为0.98,表明了更好的病变定位和分类。此外,强大的MCC和Kappa值表明预测和实际分类之间的高度可靠性与一致性。
表4显示了混淆矩阵比较,表5展示了提出的方法和关键SOTA方法的计算成本。
表4. 混淆矩阵比较。
表5. 计算成本。
表5. 计算成本。
表4显示了混淆矩阵比较。
表5表明,我们提出的框架比SOTA方法更高效、更可扩展,且比传统模型(如VGG16(Park等人,2022年)和U-Net3+(Dayı等人,2023年)小得多,仅具有540万个参数和31MB的存储空间。它的推理时间最快,为161毫秒,显著优于其他模型。即使是更轻量级的设计,如Mourya等人(2024年)的ResNet-50或Khan等人(2025年)的定制CNN,也无法匹配提出的解决方案的速度。表6显示了提出框架的组件级消融研究。
表6. 组件级消融结果。
表6. 组件级消融结果。
表5表明,我们提出的框架比SOTA方法更高效、更可扩展,并且显著小于传统模型,如VGG16(Park等人,2022年)和U-Net3+(Dayı等人,2023年),参数仅为540万个,存储空间为31MB。它的推理时间最快,为161毫秒,显著优于其他模型。即使是更轻量级的设计,如Mourya等人(2024年)的ResNet-50或Khan等人(2025年)的定制CNN,也无法匹配提出的解决方案的速度。表6显示了提出框架的组件级消融结果。
上述表格显示,我们提出的模型在所有评估指标上均取得了最佳性能。移除提出的泊松噪声降低模块后,分类和分割性能均有所下降,这表明泊松噪声降低模块在低剂量牙科X光片中的重要性。
接下来,图16显示了所有模型的接收者操作特征(ROC)曲线比较,图17显示了模型的错误分析热图。
图16. 所有模型的ROC曲线。
图17. 错误分析热图。
上述图中的错误分析热图展示了分类结果。从黄色到浅蓝色的线性梯度代表预测值。我们提出的模型显示出最高的TN和TP值,以及最低的FP和FN值,表明有效区分了龋齿和非龋齿。在少数情况下,SOTA模型(参考Park等人,2022年;Zhou等人,2018年)出现了误分类,表明其敏感性和特异性有限。图18和图19展示了原始牙科X光片以及Grad-CAM风格、Eigen-CAM风格和叠加注意力图的可视化结果。
图18. 提出的方法和SOTA方法的视觉比较。
图19. 提出的方法和SOTA方法的视觉比较。
热图面板突出了对模型决策有更强视觉贡献的图像区域,而叠加图像将注意力图与牙科X光片结合,以便进行定性解释。总体而言,我们提出的模型取得了更高的结果,并减少了诊断错误,这对于早期龋齿检测至关重要。
5. 结论
本文提出了一种用于噪声牙科图像中龋齿分类和分割的新深度学习模型。首先,我们提出的泊松噪声降低算法旨在减少低剂量牙科X光片中的泊松噪声。我们提出的噪声降低算法通过检测和增强噪声像素的灰度值来改善牙科结构,而不影响未受损的像素。该研究使用了升级的轻量级MobileNetV3方法从增强的X光片中提取有意义的细节。最后,应用了swin transformer和受U-Net启发的解码器来检测龋齿并生成准确的掩码,这些掩码在增强的X光片中显示了像素级别的细节。多个指标的定量结果以及定性可视化都证明了我们提出模型的有效性,优于SOTA方法。我们提出的模型有一些局限性。它适用于牙科X光片,可能不适用于多模态成像方式。此外,虽然噪声降低算法可以抑制泊松噪声,但在曝光不足或过度曝光的情况下可能表现不佳。
本研究的未来工作是将我们提出的模型用于多模态融合,以在广泛的成像条件下提高泛化能力。此外,该研究尚未包括明确的跨设备验证、跨机构测试或系统的领域外泛化分析,我们还将关注在独立临床队列和跨机构数据集上的外部验证,以进一步评估泛化和实际部署潜力。在这项工作中,我们使用了数据增强来平衡训练集中的类别分布,导致增强数据和原始数据之间的分布差异。评估指标仅使用原始图像计算,以减少性能估计的偏差风险。未来的工作还将关注类平衡采样方法,以最小化潜在的偏差。
本研究得到了Prince Sattam bin Abdulaziz大学项目编号(PSAU/2024/01/78910)的资助。
CRediT作者贡献声明
Fahdah Almarshad:撰写——原始草稿、方法论、资金获取、数据管理、概念化。
Sajid Ullah Khan:撰写——审阅与编辑、可视化、验证、监督、软件、资源、项目管理、概念化。
知情同意
不适用,因为我们使用了公开可用的数据集。
数据可用性声明
数据可根据合理请求提供给相应作者。
打赏