编辑推荐:
摘要背景人工智能可以标准化根尖区域的评估,但很少有研究能够将像素级别的分割结果映射到基于统一协议的临床可解释的根尖指数(PAI)分类中。方法我们回顾性地收集了900张经过匿名处理的根尖X光片,并添加了专家标记以及患者级别的数据划分(训练集/验证集/测试集:594/145/161)
人工智能可以标准化根尖区域的评估,但很少有研究能够将像素级别的分割结果映射到基于统一协议的临床可解释的根尖指数(PAI)分类中。
我们回顾性地收集了900张经过匿名处理的根尖X光片,并添加了专家标记以及患者级别的数据划分(训练集/验证集/测试集:594/145/161)。四种模型(U-Net、ResUNet34、DeepLabV3、HRNet)在相同的预处理、数据增强以及二元交叉熵(BCE)+ Dice损失函数下进行了训练。在独立的测试集上,我们在预先指定的操作点计算了分割结果和图像级别的检测指标(灵敏度、特异性、精确度、F1分数、AUC)。基于面积的PAI评分(aPAI)是通过使用预设的阈值来计算病变区域与图像区域的比例得出的,它为传统的PAI分类提供了一个定量的、基于大小的替代指标,而不需要考虑边缘定义或小梁结构变化等定性放射学特征。
DeepLabV3在检测效果上最为平衡(准确率为90.1%,灵敏度为92.8%,F1分数为91.8%),而HRNet的特异性(87.5%)和精确度(91.4%)最高。Friedman/Wilcoxon分析显示模型之间存在显著差异。经过Bonferroni校正后(调整后的α值=0.0083),只有DeepLabV3与U-Net之间的比较在二元病变检测和aPAI分类方面仍然具有统计学意义(p值均<0.0012);其他模型对之间的差异均未达到校正后的显著性阈值。aPAI分类的准确率范围为72.7%(U-Net)到84.5%(DeepLabV3)。
基于分割的、基于面积的PAI评分方法是可行的,并且在不同的模型之间具有一致性。对于需要高灵敏度的筛查工作流程,DeepLabV3更为适用;而HRNet则更适合用于确认性检测,因为它能减少假阳性的出现。这种统一的处理流程为从像素概率到标准PAI分类提供了一个可解释的转换桥梁。
人工智能可以标准化根尖区域的评估,但很少有研究能够将像素级别的分割结果映射到基于统一协议的临床可解释的根尖指数(PAI)分类中。
我们回顾性地收集了900张经过匿名处理的根尖X光片,并添加了专家标记以及患者级别的数据划分(训练集/验证集/测试集:594/145/161)。四种模型(U-Net、ResUNet34、DeepLabV3、HRNet)在相同的预处理、数据增强以及二元交叉熵(BCE)+ Dice损失函数下进行了训练。在独立的测试集上,我们在预先指定的操作点计算了分割结果和图像级别的检测指标(灵敏度、特异性、精确度、F1分数、AUC)。基于面积的PAI评分(aPAI)是通过使用预设的阈值来计算病变区域与图像区域的比例得出的,它为传统的PAI分类提供了一个定量的、基于大小的替代指标,而不需要考虑边缘定义或小梁结构变化等定性放射学特征。
DeepLabV3在检测效果上最为平衡(准确率为90.1%,灵敏度为92.8%,F1分数为91.8%),而HRNet的特异性(87.5%)和精确度(91.4%)最高。Friedman/Wilcoxon分析显示模型之间存在显著差异。经过Bonferroni校正后(调整后的α值=0.0083),只有DeepLabV3与U-Net之间的比较在二元病变检测和aPAI分类方面仍然具有统计学意义(p值均<0.0012);其他模型对之间的差异均未达到校正后的显著性阈值。aPAI分类的准确率范围为72.7%(U-Net)到84.5%(DeepLabV3)。
基于分割的、基于面积的PAI评分方法是可行的,并且在不同的模型之间具有一致性。对于需要高灵敏度的筛查工作流程,DeepLabV3更为适用;而HRNet则更适合用于确认性检测,因为它能减少假阳性的出现。这种统一的处理流程为从像素概率到标准PAI分类提供了一个可解释的转换桥梁。
生物通 版权所有