编辑推荐:
本推荐研究深入比较了人工智能(AI)辅助定量CT评估与放射科医师半定量视觉评分在COVID-19肺炎严重程度分层中的应用。结果显示两种方法具有高度一致性(κ = 0.73),尤其在肺实质受累>25%的重症患者中表现更佳(κ = 0.91)。研究表明AI工具有助于提高诊断效率,在临床决策支持方面具有重要价值。
引言
冠状病毒病(COVID-19)是一种由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引起的病毒性呼吸道疾病,已在全球范围内影响数百万人。COVID-19主要表现为急性呼吸道感染,严重程度从无症状或轻度到严重和危及生命不等。
目前对于COVID-19肺炎的最佳影像学评估方法尚未达成共识。胸部CT扫描在该疾病的诊断和管理中的应用一直是激烈争论的主题。COVID-19肺炎的放射学特征,如毛玻璃样混浊、实变和双侧肺浸润,为指导临床决策提供了关键见解。这些在CT扫描上可检测的特征在疾病早期检测中已被证明非常宝贵,特别是在传统检测方法如RT-PCR在敏感性和可用性方面存在局限性的情况下。
CT扫描的意义不仅限于诊断,还使医疗保健提供者能够有效分诊患者,识别需要立即医疗干预的患者与症状较轻的患者。虽然毫无疑问胸部CT扫描可以提供有关COVID-19肺炎肺部受累程度和严重程度的宝贵信息,但图像解读的最佳方法尚不清楚。已经提出了两种不同的方法:定量评估和半定量视觉评分。前者涉及测量特定的放射学特征,如毛玻璃样混浊和实变,并根据其程度和分布计算分数。后者依赖于对肺部受累整体程度和分布的视觉评估,通常使用0到4分的评分系统。
先前的研究已经证明了胸部CT扫描在COVID-19肺炎诊断和管理中的潜在效用。例如,Li等人报告称,在中国武汉的1,014名患者队列中,胸部CT扫描对COVID-19的诊断比逆转录聚合酶链反应(RT-PCR)更敏感。同样,Fang等人证明胸部CT扫描有助于区分COVID-19肺炎和非COVID-19肺炎,其中毛玻璃样混浊在前者中更常见。此外,一些研究表明胸部CT扫描可能对COVID-19肺炎患者的预后判断有用,更广泛的肺部受累与较差的结果相关。
在COVID-19的背景下,人工智能辅助CT分析已被探索作为支持放射科医师评估肺部受累的一种手段,特别是在专家有限或患者负荷高的环境中。COVID-19对医疗保健系统造成的巨大压力凸显了人工智能驱动诊断工具在提高效率和准确性方面的潜在好处。人工智能能够快速、客观地量化疾病负担, potentially reducing variability and inter-observer differences inherent in visual scoring methods.
最近的研究强调了深度学习和放射组学方法在增强胸部CT扫描在COVID-19和其他肺部疾病中的诊断和预后效用方面的潜力,支持更快和更可重复的评估。此外,基于人工智能的算法可以协助预测疾病进展,使临床医生能够就患者管理和资源分配做出更明智的决策。
然而,关于半定量视觉评分和胸部CT扫描定量评估对COVID-19肺炎患者分层的比较准确性的数据有限。一些研究表明,由于后一种方法可能存在观察者间变异性,定量评估可能比半定量视觉评分更准确。例如,Yang等人报告称,在72名COVID-19肺炎患者队列中,定量评估具有更高的观察者间一致性和更好的诊断准确性 than semi-quantitative visual scoring. On the other hand, other studies have reported the opposite, with semi-quantitative visual scoring being more accurate than quantitative assessment. For example, Wu等人报告称,在74名患者队列中,视觉评分比定量评估具有更高的诊断准确性。
两种评估方法在COVID-19肺炎的临床管理中都发挥着至关重要的作用,提供了互补的见解。半定量和定量评估之间的选择可能取决于各种因素,包括患者管理的具体需求、资源的可用性以及临床或研究目标。了解每种方法的优势和局限性对于利用其好处同时减轻潜在缺点至关重要,最终旨在在COVID-19的挑战性背景下增强患者护理和结果。
本研究的主要目的是评估人工智能辅助定量CT工具在评估COVID-19患者肺部受累方面与传统放射科医师指定的半定量视觉评分相比的有效性。我们假设,鉴于后一种方法可能存在观察者间变异性,定量评估将比半定量视觉评分更准确。这项研究的结果将对COVID-19肺炎患者的管理产生重要影响,特别是在胸部CT扫描的解读和人工智能方法在诊断工作流程中的有用性方面。通过比较两种方法,我们试图确定人工智能是否可以提高疾病严重程度评估的准确性和效率,最终改善患者分层和管理。
材料与方法
研究人群
这项研究是一项回顾性单中心研究,对象是在意大利第一波大流行期间(2020年2月27日至2020年4月27日)入组的患者。纳入的患者因疑似新型冠状病毒感染而住院,并接受了胸部CT成像和实验室病毒核酸检测(采用鼻咽和口咽拭子样本进行逆转录聚合酶链反应RT-PCR检测)。共回顾性纳入了611例(平均年龄63岁;年龄范围18-93岁;65%男性和35%女性)在急诊科初步评估疑似COVID的胸部CT检查。在611名患者中,399名患者在胸部CT期间测量了血氧饱和度。所有RT-PCR结果阳性的COVID-19患者均被识别(n = 435)。在一个病例有多个拭子的情况下,如果至少一个样本呈阳性,则患者被评为阳性。在611名患者中,收集了传记数据、影像学特征、实验室测试和临床数据。
CT扫描协议
所有图像均使用Revolution EVO CT系统(GE Healthcare, Milwaukee, WI, United States)获取,患者处于仰卧位。所有扫描均未使用对比剂。扫描参数为120 kVp,40-90 mAs,螺距1-1.25,矩阵512 × 512。所有图像重建层厚为1.25 mm。
图像分析
视觉胸部CT解读由三位放射科医师(E. M, F. C, and C. C)独立进行,他们分别拥有15年、20年和12年经验,且对临床数据不知情。
每位观察者系统地评估了典型的肺部异常,包括毛玻璃样混浊(GGO)、铺路石图案和实变。以及其他放射学征象,如肺气肿、肺纤维化、结节形成、胸膜下线状影、肺不张和树芽征。此外,对于每个肺叶,观察者使用以下半定量视觉评分系统对异常进行分级。严重程度阈值定义如下:评分0,<10%;评分1,10–25%;评分2,26–50%,评分3,51–75%,评分4,大于76%的肺实质受累。
并行地,使用基于人工智能算法的CT肺炎分析原型(Platform Frontier, SyngoVIA, Siemens Healthineers, Erlangen, Germany)自动检测和量化肺部病理发现。该系统采用卷积神经网络(CNNs),该网络在包含9,749例各种肺部疾病(包括COVID-19肺炎)患者胸部CT扫描的广泛注释数据集上进行训练,以识别COVID-19肺炎典型的放射学模式,如毛玻璃样混浊、实变和间隔增厚。该算法自动分割肺实质,识别几种放射学模式,并计算关键定量指标,包括:相对于总肺体积的总体病变体积、定量密度值和肺部受累百分比。此外,基于受影响肺体积的预定义阈值,该算法根据肺部受累程度对疾病严重程度进行分类,从而可以直接与放射科医师的视觉评估进行比较。该原型处理每个CT扫描大约需要80-10秒 per patient and generates an output report with the volume and opacity percentages calculated for individual lobes and for the entire lung volume. Following, these AI-based classifications were directly compared to radiologists’ semiquantitative scores to evaluate the level of concordance between manual and automated assessments. For this purpose, we grouped CT continue percentages into discrete severity score (0–4), encompassing for score 0, normal to <10%; score 1, 10–25%; score 2, 26–50%, score 3, 51–75%, score 4, >76% involvement.
统计分析
为了使用IBM SPSS Statistics软件进行统计分析,我们利用了各种技术,包括用于CT评分一致性的加权Cohen's kappa分析、使用Pearson检验的相关性分析以及ROC曲线分析。
首先,我们进行了加权Cohen's kappa分析,以检查半定量视觉评分与自动定量评估之间的一致性。该分析使我们能够评估不同严重程度评分在评估中是否存在统计学显著差异。此外,将样本根据四个15天的入组时间框架进行细分,以突出培训量和放射科医师在大流行期间的信心权重。为了评估亚组分析的统计效能,我们应用了单向ANOVA框架,α = 0.05,以检测四个时间组之间的差异,基于观察到的变异性和置信区间宽度,Cohen's κ的标准差假设为0.15,并考虑组间差异Δκ ≈ 0.10为具有临床意义。
其次,我们采用ANOVA来检测视觉和定量评分对于SpO2值的差异。此外,使用Pearson检验进行相关性分析,以探索CT成像损伤(定量评分)与SpO2百分比之间的关系。该分析使我们能够检查变量之间线性关联的强度和方向。计算了Pearson相关系数(r),并评估了其显著性水平以确定观察到的关系是否具有统计学意义(p ≤ 0.05)。
最后,我们进行了ROC曲线分析以评估诊断测试的预测性能。该分析涉及在不同分类阈值下绘制真阳性率(敏感性)对假阳性率(1-特异性)的曲线,基于逻辑回归模型,并使用默认参数。计算了ROC曲线下面积(AUC),值越接近1表示测试的判别能力越高。
结果
研究数据分析揭示了几项重要发现。首先,发现两种使用的方法之间存在良好的一致性(κ = 0.73, p < 0.001),表明定性和半定量测量之间存在强相关性。然而,观察到主要的不一致来源发生在评分0和1(κ = 0.71, p < 0.001),而较高类别和肺实质受累(类别2-4)显示出更高水平的一致性(κ = 0.91, p < 0.001)。
此外,我们在不同的时间范围内进行了亚组分析,在进行事后效能评估后(效能 > 0.8, α = 0.05)。我们考虑了四个时间框架(样本量分别为122、281、166和42例)。结果表明,在整个样本中,两种估计之间的一致性呈积极趋势。发现四个研究时间段的kappa值分别为0.62、0.61、0.54和0.73,表明随着时间的推移,一致性水平为中等至高度。
此外,我们首先调查了不同评分对于SpO2值的差异。随后,我们将定量评分与外周血氧饱和度(SpO2%)相关联,证明了定量评估存在显著的轻度负相关(r: -0.13, p值0.019)。
在诊断性能方面,与拭子阳性相比,两种方法之间未观察到显著差异。视觉评估的受试者工作特征曲线下面积(AUC)为0.55,定量评估为0.56。准确性(Acc)、敏感性(Se)和特异性(Sp)值在两种方法中也相当,视觉评估的准确性为44%,敏感性为27%,特异性为78%,而定量评估显示准确性为45%,敏感性为27%,特异性为79%。
讨论
在COVID-19肺炎患者的评估中使用胸部CT扫描已变得越来越重要,因为它具有高敏感性,能够检测疾病进展的早期迹象,并随后影响患者管理。然而,CT评估的最佳方法仍不清楚,考虑到不同的评估方法各有其优势和挑战。通常,视觉评分提供了一种基于放射学模式快速直观估计肺部受累的方法,但本质上是主观的,并且容易受到观察者间变异性的影响。相比之下,基于人工智能的定量评估通过生成肺部改变的精确体积测量,提供了更客观和可重复的评估,尽管它可能需要技术资源,并且可能错过专家放射科医师最能识别的细微临床差异。
在这项研究中,我们比较了半定量视觉评分和胸部CT扫描定量评估对COVID-19肺炎患者分层的准确性,观察到极好的整体一致性(κ = 0.73),特别是在中度至重度病例中(类别2-4,κ = 0.91),证实了人工智能辅助工具在识别具有实质性肺部受累患者方面的稳健性。然而,使用预训练的商用人工智能工具(Syngo. Via, Siemens),其训练数据集和模型规格未公开,可能会引入偏差。有限的透明度限制了对泛化性能和性能一致性的全面评估。为了解决这些局限性,未来的研究将考虑使用具有透明架构和可访问训练数据的开源或可定制人工智能工具。此外,在多中心数据集和不同CT采集协议上进行外部验证对于评估可重复性和提高人工智能驱动量化的稳健性至关重要。
我们的结果显示两种方法之间存在极好的相关性,主要的不一致来源,尽管很高,发生在评分0和1(肺实质改变涉及少于25%),与较高类别和肺实质受累(类别2-4)相比。虽然0-1评分的不一致率似乎影响很小,考虑到较低的肺部受累,因此患者的临床严重程度较低,但重要的是要指出,人工智能系统正确识别了扩展大于25 percent的患者,即那些从分诊角度应该进行进一步诊断调查的患者,因为他们更有可能出现呼吸系统并发症。我们的发现与先前的研究一致,这些研究显示在评估COVID-19肺炎患者肺部受累程度方面,视觉和定量评估方法之间存在强相关性。然而,我们的研究独特之处在于它包括了时间亚组分析,该分析确定了两种测量之间随时间推移的一致性呈积极趋势(四个时间段落的k值分别为0.62、0.61、0.54、0.73)。这种时间亚组分析为了解在动态入组期间观察者间一致性(Cohen's κ)的演变提供了宝贵的见解。值得注意的是,它使我们能够监控不同操作阶段的诊断一致性,并可能检测到培训效果或工作流程随时间的变化。最大的时间框架(3月16日至31日)显示出稳定的κ值和狭窄的置信区间,表明在该期间评估者之间具有稳健的统计可靠性和良好的校准。然而,一个关键限制在于最后的时间框架(4月16日至27日),该框架包含的样本量很小。虽然该组表现出最高的观察到的κ,但宽的置信区间表明存在相当大的不确定性。这限制了观察到的增加的可靠性,并降低了统计效能,需要谨慎解释这一结果。
此外,未检测到不同评分与SpO2之间的差异。定量评估与SpO2值之间存在轻度负相关(r: -0.13, p = 0.019),这与先前显示肺部受累程度与低氧血症严重程度之间存在弱关联的研究一致。视觉评分与血氧饱和度的相关性是不可能的,考虑到视觉评估的离散实体,与人工智能评估的更精细量化相比。最后,我们的ROC曲线分析显示两种方法在准确性、敏感性和特异性方面的性能相当(平均AUC: 0.55),这与先前显示两种方法之间无显著差异的研究一致。
胸部CT损伤与SpO2率之间的轻度负相关表明CT形态学标准不能完全解释临床肺功能障碍,这还考虑了其他临床和仪器变量,如年龄和/或D-二聚体浓度。此外,两种方法的低AUC值突出表明,胸部CT发现与RT-PCR证明的COVID-19阳性并不平行,但仅识别了涉及多个解剖区域和领域的多症状疾病中的特定特征。
除了CT评估在COVID患者管理中的实际影响之外,我们的研究结果有助于界定基于人工智能的工具的作用,清楚地证明了它们支持放射科医师量化肺部CT改变的能力,减轻紧急和压力条件下的工作负荷。将人工智能整合到诊断过程中,特别是在解读COVID-19的CT扫描方面,标志着医学成像和患者护理的变革性转变。人工智能快速处理和分析大量成像数据的高精度意味着它可以识别指示COVID-19肺炎的模式,甚至可能在这些迹象对人类观察者明显 evident之前。这项技术不仅提高了诊断的准确性,而且显著减少了医疗保健专业人员分析扫描的时间。通过自动化检测和评估CT图像中的病理特征,人工智能支持及时准确的诊断,促进早期干预和适当的治疗计划。此外,人工智能工具可以管理和优先处理诊断工作流程,确保病理最严重的患者得到及时处理。因此,人工智能在COVID-19大流行背景下对诊断放射学的贡献减轻了医务人员压力,优化了资源分配,并通过实现更快、更精确的诊断改善了患者预后。这种整合强调了技术与医疗保健之间不断发展的协同作用,有望重塑疾病诊断和管理的未来。
在COVID-19的CT扫描临床诊断中,针对传统评估方法验证基于人工智能的工具对于其成功整合到医疗保健系统中至关重要。这个验证过程对于确保人工智能工具不仅匹配而且可能超过人类驱动评估的准确性和可靠性至关重要。通过严格的临床试验和比较研究,评估人工智能算法准确识别和量化与COVID-19相关的病理特征(如毛玻璃样混浊和实变模式)的能力。像Ko等人进行的验证研究,专注于各种指标,包括敏感性、特异性和预测值,以衡量人工智能工具与金标准诊断方法相比检测COVID-19病例的能力。
这种验证过程的必要性源于在医疗保健专业人员中建立对人工智能技术的强大信任基础的需要。通过证明人工智能可以与放射科医师并肩工作,增强他们的能力而不是取代他们,它鼓励这些技术在临床实践中更广泛地采用。此外,使人工智能工具与临床结果保持一致确保它们对患者护理做出积极贡献,有助于早期检测和监测疾病进展,这对于及时干预和治疗计划至关重要。从本质上讲,基于人工智能的工具针对传统方法的验证不仅是技术上的必要性,而且是临床上的当务之急。它确保将人工智能整合到医疗保健工作流程中转化为患者管理和结果的有形好处。随着人工智能的不断发展,基于真实世界临床数据的持续验证和重新校准对于保持其在不断变化的医学诊断 landscape中的相关性和有效性至关重要。
总之,在临床上,他们的发现表明人工智能工具可以可靠地识别肺实质受累大于25%的患者,这是分诊决策的关键阈值。在紧急情况下,这可以支持优先处理呼吸系统并发症风险较高的患者,提高资源分配和护理计划的效率。在这种情况下,基于人工智能的定量CT分析可以作为一种决策支持系统,特别是在需要快速、标准化评估或放射学专业知识有限的情况下。
生物通 版权所有