综述:基于深度学习的全景 X 线片骨质疏松筛查评估:系统综述与荟萃分析

时间:2025年3月13日
来源:BMC Medical Imaging

编辑推荐:

本文通过系统综述和荟萃分析,评估深度学习(DL)模型在骨质疏松诊断中的准确性,发现其有潜力但需更多研究验证。

广告
   X   

# 基于深度学习的全景 X 线片骨质疏松筛查评估:系统综述与荟萃分析

一、研究背景


骨质疏松是一种复杂的多学科疾病,给患者和医疗服务提供者带来诸多挑战,随着其患病率上升,早期诊断和筛查变得至关重要。在众多骨质疏松检测的成像技术中,双能 X 线吸收法(DEXA)虽被视为金标准,但对于一些特殊患者存在局限性。比如,体内有金属植入物的患者,其金属会干扰 DEXA 对骨密度的准确测量;健康信息不完整或不准确的患者,难以基于 DEXA 得出精准诊断;而无法在成像过程中充分配合的患者,也会影响 DEXA 检查结果的可靠性。

此时,全景 X 线摄影(OPG)作为一种经济有效的成像技术,逐渐进入人们的视野。它不仅能用于评估上下颌骨、诊断牙科疾病、颌骨损伤和疾病,还在骨质疏松筛查方面展现出一定潜力。OPG 可通过测量诸如硬骨板宽度、下颌皮质指数(MCI)和下颌角前切迹指数等指标来评估骨质疏松。然而,人工测量这些指标既耗费时间又容易出错,不利于在 X 光片中有效识别特征,还会影响分类方法的重复性。

随着科技的发展,人工智能(AI)和深度学习(DL)技术在医学成像领域发挥着越来越重要的作用。深度学习中的卷积神经网络(CNNs)在医学图像模式识别方面表现出色,能够自动检测和分类 X 光片中的指标,减少人为因素的干扰,提高诊断的一致性,弥补人工分析的不足。像 AlexNet、ResNet 和 VGG 等 DL 算法,已被用于通过全景 X 光片评估骨质疏松,这些模型在提取复杂成像特征方面更具优势,相比传统方法,显著提高了检测的敏感性和特异性。因此,评估 DL 技术在诊断骨质疏松方面的有效性显得尤为关键。

二、研究方法


2.1 数据资源与检索策略


本研究严格遵循系统评价和荟萃分析的首选报告项目(PRISMA)指南,并在 PROSPERO 上进行了注册。研究人员在 MEDLINE(PubMed)、Scopus 和 Web of Science(WOS)等电子数据库中进行文献检索,检索时间截至 2025 年 2 月 10 日。检索时使用了医学主题词(MeSH)和相关关键词,具体包括(“深度学习” 或 “迁移学习” 或 “卷积神经网络” 或 “CNN” 或 “人工神经网络” 或 “人工智能” 或 “自动学习”)且(“骨质疏松” 或 “骨矿物质密度” 或 “BMD” 或 “骨质流失” 或 “骨质” 或 “骨微结构”)且(“全景 X 线摄影” 或 “全景 X 光片” 或 “OPG”),详细的检索策略在补充文件 1 中提供。所有检索到的记录都通过 Endnote 20 进行管理,并去除重复文献。

2.2 纳入与排除标准


研究依据 PICOS(人群、干预、对照、结局、研究设计)框架制定了纳入和排除标准。纳入的研究需是通过全景 X 光片评估疑似或确诊骨质疏松患者的研究;研究内容为基于深度学习模型的骨质疏松诊断;需评估深度学习模型与传统诊断方法(如 DEXA、MCI、专家放射科医生评估等)的对比;需报告诊断准确性指标(如敏感性、特异性、受试者工作特征曲线下面积 AUC)或提供可用于计算这些指标的数据;必须是利用 DL 算法进行骨质疏松预测或诊断的原创同行评审研究,且以英文发表。排除的研究包括基于髋部、股骨或腰椎图像评估骨质疏松的研究、参与者少于 10 人的研究、使用非深度学习技术(如传统机器学习和统计方法)的研究、未报告诊断准确性或缺乏计算指标所需数据的研究,以及综述、社论、评论、给编辑的信、病例系列、病例报告、会议摘要和预印本文章等。

2.3 研究选择


由两名 reviewers(M.A. 和 A.T.)独立且重复地进行筛选工作。他们先对文献的标题和摘要进行筛选,找出符合纳入标准的研究,随后对这些研究的全文进行独立评审,以确认其是否真正符合要求。若两人在筛选过程中出现分歧,则通过讨论达成共识;若无法达成共识,则由第三位 reviewer(M.H.)做出最终决定。研究过程中详细记录了每个筛选阶段所筛选的文章以及排除的原因。

2.4 数据提取


同样由两名调查人员(M.A. 和 A.T.)独立从选定的研究中提取数据,提取的内容涵盖第一作者姓名、发表年份、研究设计、国家、样本量、性别、成像方式、参考测试、DL 模型以及性能指标(AUC、敏感性、特异性和准确性)。若一项研究中开发了多个 DL 模型,则分别收集每个模型的数据。对于每个研究,研究人员提取或计算真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。如果这些数据在原文中直接报告,就直接记录;若未明确提供,则根据报告的敏感性、特异性以及病例总数(骨质疏松和非骨质疏松病例),通过特定公式进行计算,相关公式为:(其中表示患病病例总数);(其中表示非患病病例总数);病例总数 。提取的数据记录在 Excel 电子表格中,若提取过程中出现差异,会通过讨论解决,必要时咨询第三位 reviewer(M.H.),数据提取表在补充文件 1 的表 S2 中提供。

2.5 偏倚风险评估


两名评估人员(M.A. 和 A.T.)运用 QUADAS - 2 工具对选定研究中可能存在的偏倚风险进行独立评估。该工具包含四个关键领域:患者选择、指标测试、参考标准以及流程和时间。评估过程中若出现分歧,会在第三位作者的参与下解决。

2.6 统计分析


纳入研究采用了多种指标(如敏感性、特异性、AUC 等)来评估 DL 模型的诊断性能。研究人员使用双变量随机效应模型对这些诊断指标进行荟萃分析,计算敏感性、特异性和 AUC 的汇总值,并通过森林图展示汇总敏感性和特异性及其 95% 置信区间(95% CI)。为了量化检测结果为阳性或有害的可能性,研究人员计算了阳性 / 阴性似然比(LR + /LR - ),进而得出诊断优势比(DOR)及其 95% CI,并绘制相应的森林图。同时,运用双变量法绘制汇总受试者工作特征曲线(SROC),并计算其 AUC。研究通过不一致性指数(I²)评估研究间的异质性,当时,表明存在显著异质性,此时采用随机效应模型。

为了探究异质性的潜在来源,研究人员进行了敏感性分析、元回归分析以及基于 DL 方法(如 AlexNet、VGG 和 ResNet)的亚组分析。亚组分析还比较了不同组内 DL 模型的诊断准确性。通过 Deeks 漏斗图不对称检验评估发表偏倚,当 P 值小于 0.05 时具有统计学意义。所有统计分析均使用 STATA 17 版本中的 Midas 和 mandi 软件包以及 Meta - Disc 软件完成。

三、研究结果


3.1 研究选择


研究初始通过电子数据库检索到 204 篇文章,剔除 189 篇重复和不相关的研究后,对剩余的 15 篇文章进行资格评估。经过全文审查,最终选定 7 篇文章纳入研究,整个筛选过程通过 PRISMA 流程图清晰展示。

3.2 研究特征


入选的 7 篇文章发表于 2019 年至 2025 年之间,研究分别在日本(2 项)、韩国(2 项)、土耳其(1 项)、巴西(1 项)和德国(1 项)开展。研究共涉及 4217 名参与者,其中 85% 为女性,参与者的平均年龄超过 50 岁。在参考标准方面,4 项研究以 MCI 作为确认骨质疏松患者的参考标准,另外 3 项研究则使用 DEXA。这些研究共开发了 21 种不同架构的 DL 模型,并且大多采用了迁移学习方法,如 ResNet、VGG 和 EfficientNet 等。多数研究同时使用多个 DL 模型进行实验,3 项研究采用 k 折交叉验证法划分数据集,其余研究则采用简单随机抽样将数据集划分为训练集、验证集和测试集,所有研究均使用内部数据集进行验证测试。在超参数方面,不同研究之间差异较大,例如优化算法包括随机梯度下降(SGD)和 Adam 等;学习率从 0.001 到 0.1 不等,部分研究使用多个学习率;批次大小在 16 到 50 之间;训练轮数从 20 到 150 不等。相关信息在表 2 中进行了详细汇总。

3.3 研究内偏倚风险


运用 QUADAS - 2 方法评估研究质量和潜在偏倚发现,大多数研究在 “患者选择” 和 “参考标准” 类别中显示出较低的偏倚风险,但有 1 项研究在这方面存在不确定性。总体而言,所有研究在 “患者选择”“指标测试” 和 “参考标准” 领域的偏倚风险较低,不过有 4 项研究在 “流程和时间” 领域的评估结果不明确,详细的质量评估结果在补充文件 1 的图 S1 和表 S3 中呈现。

3.4 深度学习模型的诊断准确性


研究中开发的 DL 模型 AUC 值在 66.8% - 99.8% 之间,敏感性范围为 59% - 97%,特异性范围为 64.9% - 100%。汇总后的敏感性为 0.80(95% CI:0.74 - 0.86),特异性为 0.92(95% CI:0.88 - 0.95)。敏感性和特异性均显示出显著的异质性(分别为 94% 和 97%,)。通过双变量法得到的汇总 SROC 曲线 AUC 为 0.93(95% CI:0.91 - 0.95),DL 模型的 DOR 为 50.42(95% CI:23.31 - 109.05),详细的诊断准确性荟萃分析结果在补充文件 2 的图 S1 - S5 中。

3.5 元回归分析和亚组分析


元回归分析旨在找出研究间异质性的来源,结果表明验证方法和参考标准类型对异质性有显著影响。亚组分析基于 DL 方法展开,结果显示不同亚组之间的诊断准确性没有显著差异。在各种 DL 方法中,AlexNet 表现较为突出,其敏感性为 0.89,特异性为 0.99。

3.6 敏感性分析和发表偏倚


敏感性分析发现了两个异常值模型,将其排除后进行分析,结果显示排除这些异常值对整体结果没有显著影响。通过 Deeks 漏斗图不对称检验评估发表偏倚,结果表明研究间不存在显著的发表偏倚()。

四、讨论


在临床和辅助临床服务中,诊断成像结果对于确认或排除患者疾病至关重要。放射学检查通过与金标准方法对比的敏感性和特异性来衡量准确性,而受试者工作特征(ROC)曲线下面积则综合反映了检测方法的有效性,是重要的准确性指标。研究人员一直在探索各种医学成像技术在高危人群中诊断骨质疏松的敏感性和特异性,将 DL 技术融入医学成像为解决传统方法的局限性、提高诊断效率带来了希望。

本系统综述和荟萃分析评估了 DL 模型在预测骨质疏松方面的诊断准确性,结果表明 DL 模型有助于放射科医生和医生早期、无创地诊断骨质疏松,这对于改善患者预后、实现有效治疗和提高生存率意义重大。此外,DL 算法能够在不干扰临床工作流程的情况下分析全景图像,增强骨质疏松筛查能力,在处理严重骨质疏松性骨折方面也表现出色。

与之前的相关研究相比,本研究具有更全面的优势。例如,Yen 等人曾进行过关于 DL 模型诊断骨质疏松性能的荟萃分析,虽然报告了较高的诊断准确性,但存在诸多局限性。该研究未进行元回归、亚组分析和发表偏倚评估,主要关注骨盆和腰部图像,对 OPG 图像关注较少,也未深入探讨不同的 DL 技术,且缺少 DOR 和 LR 等关键结果。而本研究全面评估和比较了这些参数,弥补了上述不足。

本研究中 DL 模型的综合指标表现出色,AUC 达到 0.93(95% CI:0.91 - 0.95),敏感性为 0.80(95% CI:0.74 - 0.86),特异性为 0.92(95% CI:0.88 - 0.95),这表明 DL 模型在区分患者和健康个体方面具有较高的准确性,且优于其他机器学习方法。研究还发现 DL 模型的 DOR 为 50.42(95% CI:23 - 109),LR + 为 10.67(范围 6.4 - 17.6),LR - 为 0.21(范围 0.15 - 0.29),进一步证明了 DL 模型在诊断骨质疏松方面的优势。

然而,本研究也存在一些局限性。首先,元分析中存在显著的异质性,高值表明研究间差异较大。通过元回归发现,验证方法等因素会影响不同研究中模型的预测性能。虽然亚组分析显示多数研究使用的 AlexNet 和 ResNet 等迁移学习模型对骨质疏松诊断有效,但数据集大小、图像质量和训练参数等因素仍显著影响模型性能。因此,未来研究需要规范方法和报告实践,以减少异质性。

其次,本研究所有纳入的研究均仅依赖内部验证,缺乏外部验证,这对于评估 DL 模型的临床可靠性至关重要。此外,研究数量较少且数据多来自单中心,限制了研究结果的普遍性。同时,部分研究对超参数的报告不完整、不一致,影响了对模型性能的深入评估,也增加了研究的异质性。未来研究应遵循标准化的超参数报告指南,通过更深入的亚组或敏感性分析探索特定超参数设置的影响,以优化 DL 模型在骨质疏松预测中的应用。

总体而言,尽管 DL 在预测骨质疏松方面展现出巨大潜力,但仍需通过前瞻性临床试验进一步验证研究结果,并不断开发和优化 DL 模型,使其更好地融入临床实践。同时,还需关注使用 DL 技术进行骨质疏松预测所带来的伦理和社会问题。

五、研究结论


本综述和荟萃分析表明,用于骨质疏松诊断的 DL 模型在敏感性、特异性和 AUC 方面表现出色,分别达到 80%、92% 和 93%,优于其他算法。像 VGG 和 ResNet 等迁移学习模型性能更优,显示出其在骨质疏松诊断中的有效性。这意味着 DL 模型有望成为高敏感性和特异性的无创诊断工具,助力早期检测骨质疏松。不过,要想将这些模型真正应用于临床,还需要开展更多大规模多中心研究,进一步优化算法,并验证其在高危人群中的有效性。

生物通微信公众号
微信
新浪微博


生物通 版权所有