SpineNetv2深度学习系统在腰椎MRI多病理分析中的外部验证:诊断一致性研究

时间:2025年11月9日
来源:European Spine Journal

编辑推荐:

本研究针对腰椎MRI解读耗时且存在观察者间差异的问题,对公开深度学习系统SpineNetv2进行了独立外部验证。通过对491例患者(2,455个椎间盘)的评估,发现SpineNetv2在中央椎管狭窄、椎体滑脱和双侧椎间孔狭窄等五种二元病理诊断中与专家评估高度一致(平均92.8%),其特异性导向的特点支持其作为确认性第二读片工具的应用价值。

广告
   X   

腰痛是全球致残的首要原因,过去三十年来始终是导致残疾生存年的主要因素。流行病学证据显示70%-85%的成年人一生中至少会经历一次腰痛发作,其中腰椎退行性改变是最常见的结构性诱因。磁共振成像(MRI)作为评估腰椎病理学的金标准,虽然能提供椎间盘形态、水合状态和神经元素受压的高分辨率评估,但其解读过程既复杂又具主观性。诊断性能很大程度上取决于读片者的专业水平,即使经验丰富的临床医生之间也仅存在中等程度的一致性。随着脊柱MRI检查需求的增长,放射科服务压力日益加大,使得及时、一致的影像解读变得更加困难。
人工智能和深度学习的快速发展为肌肉骨骼影像学中的自动化图像分析带来了希望。卷积神经网络及相关架构在各种脊柱影像任务中展现出强大性能,包括椎间盘退变分级、椎间盘突出检测和椎管狭窄识别。多项研究报告其诊断准确性可与放射科医生相媲美,表明AI系统可能提高脊柱MRI解读的临床效率并减少人为错误。
尽管取得这些进展,现有方法的重要局限性仍制约着其临床实用性。许多先前研究聚焦于单一疾病或诊断任务,限制了其在腰椎病理学复杂多层面表现中的相关性。此外,大多数算法是在相对较小的单中心数据集上开发和验证的,引发了对算法鲁棒性及在独立队列中泛化能力的担忧。参考评估的可靠性也存在问题,因为许多早期评估仅依赖单一读片者,引入了主观性和潜在偏倚。
为应对这些局限性,本研究对公开可用的SpineNetv2系统进行了外部验证,该系统用于腰椎MRI的自动检测和分级,使用的数据集独立于模型开发。基于专家参考评估,本研究系统比较了SpineNetv2与初级和专家级骨科医生在多种常见腰椎病理中的诊断性能,进一步分析了诊断一致性、错误模式和在患者亚组中的性能稳定性。
研究采用回顾性诊断一致性设计,纳入491例患者共2,455个椎间盘水平(L1/2-L5/S1)。参考评估由一位拥有20多年经验的专家骨科医生提供,初级骨科医生作为性能比较对象。评估六种病理:椎间盘退变(Pfirrmann分级)、中央椎管狭窄(CCS)、椎体滑脱、突出和双侧椎间孔狭窄(FS)。性能指标包括敏感性、特异性、阳性预测值、阴性预测值、F1分数、马修斯相关系数、精确一致率、加权Kappa和平均绝对误差。采用McNemar检验和Bootstrap重抽样(1,000次迭代)进行统计分析。
结果显示总体一致率在83.5%至97.5%之间(平均92.8%)。SpineNetv2在CCS、椎体滑脱和双侧FS上显著优于初级骨科医生(所有p≤0.001),在突出方面性能相当(p=0.293)。Pfirrmann分级中,SpineNetv2的平均绝对误差低于初级医生(0.213对0.254,p=0.001),但在老年患者和上腰椎间盘中的一致性下降。错误分析显示特异性导向的特点,假阴性超过假阳性。
关键技术方法包括使用公开深度学习框架SpineNetv2进行自动化分析,基于491例患者2,455个椎间盘的回顾性队列,采用专家参考评估作为金标准,应用多种统计指标(敏感性、特异性等)和Bootstrap重抽样进行性能验证,对罕见类别进行合理合并以简化多分类问题。
诊断一致性评估
在作为二元分类分析的五种疾病和多级有序分类评估的Pfirrmann分级中,SpineNetv2在大多数病理中表现出优于初级骨科医生的整体性能。SpineNetv2在CCS(p=0.001)、椎体滑脱(p<0.001)和双侧FS(p<0.001)上的诊断一致性显著更高。突出方面的性能相当(p=0.293)。SpineNetv2始终获得更高的特异性和阳性预测值,而初级骨科医生在大多数情况下表现出更高的敏感性。对于Pfirrmann分级,SpineNetv2显示出优异的诊断一致性,与初级骨科医生相比,平均绝对误差显著更低(0.213对0.254,p=0.001)。
错误模式表征
对六种脊柱病理的SpineNetv2错误模式进行系统评估显示,总体诊断一致性范围为83.5%至97.5%,平均一致性为92.8%。对于二元分类,错误方向性一致,假阴性显著超过假阳性:CCS(5.4%对0.4%)、突出(5.0%对1.5%)和双侧FS(4.7%-5.9%对0.2%-0.5%),反映了模型的保守诊断特征。
对于Pfirrmann分级,最常见的错误分类涉及2级病例预测为1级(106例,占所有2级椎间盘的19.3%)。轻度错误(±1级)占病例的11.6%,而严重错误(≥±2级)仅占4.9%。
诊断不一致的风险因素
跨36个人口统计学-脊柱组合(六种疾病×三个年龄组×两个脊柱水平)的全面风险分层显示SpineNetv2的性能主要可靠。所有亚组的总体诊断一致性平均为92.7%,风险分布如下:30个低风险(83.3%),五个中风险(13.9%)和一个高风险(2.8%)组合。
风险集中是疾病特异性的,椎间盘退变占所有中和高风险情况。唯一的高风险组合出现在老年患者(>60岁)伴有上腰椎间盘退变(一致性77.7%,94例)。五个中风险组合对应于Pfirrmann其余的年龄-节段 strata(一致性81.6%-86.9%)。所有其他疾病在人口统计学和节段亚组中表现出一致的高可靠性,范围从CCS的90.8%到椎体滑脱的97.9%。
多变量性能决定因素分析
疾病合并后,使用盘水平逻辑回归(12,275次观察)进行二元疾病的多变量分析,使用有序逻辑回归(2,455次观察)进行Pfirrmann分级分析,两者均采用患者聚类稳健标准误。在24个因素-疾病组合(20.8%)中观察到显著关联,亚组间总体一致性平均为94.9%。
年龄效应仅限于Pfirrmann分级,中年(OR=0.54,95% CI:0.35-0.84,p=0.007)和老年患者(OR=0.27,95% CI:0.15-0.46,p<0.001)的一致性降低。男性与CCS(OR=1.61,p=0.006)和突出(OR=1.45,p=0.024)的改善一致性相关。下腰椎节段仅在CCS中优于上节段(OR=1.50,p=0.020)。没有其他因素-疾病组合显示出显著关联。
本研究证实了SpineNetv2在多种常见退行性病理中的高诊断一致性,其特异性导向的特点支持其作为确认性第二读片工具的应用,特别是在阳性发现方面。然而,Pfirrmann分级在老年上腰椎间盘中的局限性提示需要针对性的校准。未来应通过多中心、多读片者验证和敏感性导向校准来拓宽其可靠性,同时解决技术集成、监管批准和临床工作流程挑战,以实现广泛的临床采纳。

生物通微信公众号
微信
新浪微博


生物通 版权所有