背景
抗栓治疗,包括抗血小板或抗凝药物,对于预防卒中复发至关重要。然而,再灌注治疗(如静脉溶栓和血管内血栓切除术)会带来并发症风险,其中最严重的是出血转化。非增强计算机断层扫描是卒中后检测颅内出血最广泛使用的影像学手段。可靠地检测即使是小出血,对于预防抗栓治疗可能危及生命的并发症至关重要。基于人工智能的算法在检测和分割急性卒中患者的NCCT扫描中的颅内出血方面表现出可靠的性能,显示出与人类读者的一致性和对脑实质内出血体积的精确量化。人工智能有潜力协助临床医生进行图像分析,从而增强出血检测并改善患者安全。本研究旨在评估AI作为独立工具,在检测血管内卒中治疗后48小时内进行的NCCT扫描中的出血事件时,与常规临床实践中的标准放射学评估相比的敏感性和特异性。
方法
我们在一个欧洲综合性卒中中心进行了一项回顾性、单中心研究。这项诊断准确性研究根据STARD指南设计和报告。所有在2021年8月至2024年6月期间因急性缺血性卒中接受血管内卒中治疗的患者均被纳入回顾。纳入标准为:接受前循环或后循环大或中血管闭塞(直至近端M2或P2节段)的血管内卒中治疗;且在血管内卒中治疗后48小时内获得图像质量足够(即无严重运动伪影)的NCCT图像。如果一名患者在EVT后48小时内接受了超过一次NCCT扫描,则每次扫描作为一个独立病例纳入分析。NCCT成像使用64层Somatom Definition AS+ CT扫描仪进行。所有NCCT扫描均以0.6毫米层厚在轴位平面进行。对于此临床常规诊断和本研究,仅使用了1毫米和4毫米层厚的轴位重组图像(软组织窗)。
测试的主要结果是确定所分析的影像研究中是否存在颅内出血。检测到的颅内出血根据海德堡出血分类进行解剖学描述分类。所有NCCT扫描均使用一款基于卷积神经网络架构、获得FDA批准和CE标志的云端AI软件进行分析。AI生成的影像评估在图像采集后自动进行,并为本研究单独记录。此外,我们收集了由委员会认证的神经放射科医生在常规临床实践中生成的放射学报告。在临床常规中,神经放射科医生可以完全访问患者的病史,包括再灌注治疗的详细信息、既往影像以及AI生成的影像评估。然而,神经放射科医生没有义务使用AI生成的评估,也未记录他们在生成报告时是否考虑了AI评估。神经放射科医生如果怀疑AI结果不正确,可以选择推翻AI发现。研究设计旨在反映标准的临床工作流程和实践。
参考标准由两名委员会认证的放射科医生设定,他们分别拥有5年和超过15年的神经放射学经验,并且可以不受限制地访问所有临床和影像数据,包括AI发现、放射学报告、介入治疗和随访信息。这两名放射科医生负责建立真实标准,并未参与临床常规的影像评估和报告。如果AI评估与放射学报告或其中一位参考标准审阅者之间存在差异,NCCT扫描将在联席会议上进行复审,直到参考标准审阅者之间达成一致。
统计分析使用IBM SPSS Statistics进行。连续变量以中位数和四分位数间距表示,分类变量以绝对值和百分比表示。通过计算敏感度、特异度、阳性预测值和阴性预测值来评估每个阅读者与参考标准在检测任何颅内出血方面的一致性。使用科恩卡帕评估评估者间信度。双侧p值小于0.05被认为具有统计学显著性。
结果
在观察期间,共有485名患者在我们中心接受了血管内卒中治疗。排除33名患者后,剩下452名患者。这些患者每人均在48小时内至少接受了一次NCCT扫描,其中78名患者在同期内接受了第二次NCCT扫描,总共得到530次NCCT扫描可用于分析。由于AI系统因维护和暂停而暂时不可用,排除了来自27名患者的35项研究。没有NCCT扫描因运动伪影被排除。最终,共有来自425名患者的495次NCCT扫描被纳入最终分析。
在分析的495次NCCT扫描中,参考标准识别出197次扫描至少存在一个出血事件。AI系统正确识别了其中的189例,假阴性率为4.1%,敏感度为95.9%。此外,AI系统将参考标准认定的298次无出血扫描中的46次归类为阳性,导致假阳性率为15.4%,特异度为84.6%。AI系统在检测出血事件方面表现出80.4%的阳性预测值和96.9%的阴性预测值。
在常规放射学报告中,192份报告明确提到存在出血。其中181份与参考标准一致,对应的假阴性率为8.1%,敏感度为91.9%。此外,根据参考标准无出血的298次扫描中有11次在常规放射学报告中被归类为阳性,假阳性率为3.7%,特异度为96.3%。常规放射学报告在出血检测方面表现出94.3%的阳性预测值和94.7%的阴性预测值。
AI的假阳性发现主要出现在当明确的低密度梗死组织位于具有“正常”或略高密度的组织或血管结构旁边时。在AI错误分类为出血的46个病例中,这些被识别为血管、位于梗死区域内或邻近的非梗死脑实质部分、硬脑膜窦、海绵状血管瘤或其他在非增强CT中典型的高密度结构,如大脑镰、小脑幕、脑膜瘤或大型发育性静脉异常。在放射学报告中错误分类为出血的11个病例中,有7个对应于位于梗死区域内或邻近的非梗死脑实质。图2展示了一个说明区分脑血管和脑实质出血困难的例子。
AI系统和常规放射学报告均与参考标准显示出显著相关性。然而,AI系统与参考标准之间的一致性,以科恩卡帕值衡量,低于常规放射学报告。
根据海德堡出血分类,出血事件的解剖分布显示,最常观察到的出血是蛛网膜下腔出血和散在的小瘀点,无占位效应。这些类别也代表了AI系统未检测到或常规放射学报告未描述的最常见出血类型。回顾这些病例时发现,被遗漏的出血事件通常涉及细微的变化,在某些情况下是通过血肿扩大或仅通过后续影像才得到确认。
讨论
本研究旨在评估一款商用AI软件作为独立工具,在检测血管内卒中治疗后48小时内进行的NCCT扫描中的颅内出血事件方面,与标准放射学评估相比的性能。我们的研究结果表明,与常规放射学评估相比,AI系统表现出高敏感度,但特异度较低。AI系统具有更高的假阳性率,表明其存在过度判读出血的趋势。相反,AI系统的假阴性率低于常规报告,表明其在检测出血方面表现强劲。然而,AI与参考标准之间的一致性低于常规放射学报告,这突显了放射科医生在临床实践中保持了更高的诊断准确性水平。
我们的发现与现有研究一致,这些研究证明了AI在放射学诊断中的效用,常常达到专家级水平。与之前专注于急诊护理或创伤患者出血检测的研究不同,我们的研究通过评估AI在不同专业环境——机械取栓后的卒中患者——中的表现,扩展了先前的工作。AI系统在改变后的医院环境和与原始开发和验证环境不同的患者人口统计学背景下表现良好。然而,我们的结果也再次确认了人类放射科医生在临床实践中的关键作用。
当我们根据海德堡出血分类分析检测到和遗漏的出血分布时,我们发现的临床相关性变得明显。AI系统有效地标记了所有具有超过一个颅内出血事件的NCCT扫描,以及所有出血性转化超过无占位效应的小瘀点的患者。这尤其相关,原因有二:血管内卒中治疗后出现颅内出血的患者临床结局更差;并且所有患者都需要随后的抗栓治疗以预防卒中复发,除非存在禁忌症,作为二级预防措施。
早期(重新)启动抗凝治疗与改善结局相关,但只有在再灌注治疗后梗死区域不存在颅内出血的情况下才被认为是安全的。根据ELAN试验的纳入和排除标准,根据欧洲卒中协作研究分类分类为HI1或HI2的出血性梗死不一定禁忌早期启动直接口服抗凝药,前提是没有临床恶化。这表明,即使AI遗漏了1a类出血,即无占位效应的散在小瘀点,对早期抗凝启动的影响也可能是最小的。
对于抗血小板治疗,我们的结果也很有意义。目前的指南建议在影像排除出血后尽快启动抗血小板治疗,理想情况下在症状出现后12至24小时内。最近的研究进一步支持在血管内卒中治疗后24小时内早期启动抗血小板治疗。
然而,对于蛛网膜下腔出血,关于早期启动抗栓治疗的数据有限。蛛网膜下腔出血是EVT后常见且可能严重的并发症,管理策略仍存在争议。临床方法可能取决于出血范围和病因,例如手术过程中的血管穿孔或由于取栓装置回收过程中的动脉伸直而导致的小穿支血管撕裂。
最终,在缺血性卒中后决定(重新)启动抗栓治疗及其时机本身带有风险,必须仔细权衡,并且每个治疗团队如何积极主动地实施该疗法取决于他们自己。在放射科医生无法或不便立即进行影像审查的情况下,例如在没有现场放射科医生的医疗机构或临时人员短缺期间,同时仍希望尽快开始抗栓治疗,AI作为独立诊断工具的应用将是一个例子。尽管我们的数据朝着这个方向是有利的,但数据尚不足以在临床常规中确立这一点。
局限性
虽然我们的研究提供了有价值的见解,但它有几个局限性。首先,它是在一个综合性卒中中心进行的,这可能限制我们的发现对其他具有不同影像协议和AI实施策略的机构的普遍适用性。其次,我们的研究是回顾性的,需要进行前瞻性验证以进一步评估AI在真实世界环境中的临床影响,特别是在卒中患者的二级预防方面。
最后,虽然我们将AI与常规临床实践中的放射科医生进行了比较,但我们没有评估其与不知情的放射科医生相比的性能,这可能提供额外的见解。在不知情的放射科医生的情况下,我们的数据可能只会改变放射学报告方面,因为AI是作为独立工具评估影像数据的。研究设计有意将AI与常规临床放射学评估进行比较,在这种评估中,多名能够访问患者病史和治疗数据的放射科医生解读扫描。尽管存在这种固有的不平衡,AI系统表现出了强劲的独立性能。与不知临床数据的放射科医生进行直接比较并不能反映真实世界的应用,因为临床实践中的诊断决策依赖于整合的患者信息。然而,我们承认放射科医生在报告期间有机会参考AI的评估也代表了一个可能的偏倚来源。此外,与AI独立评估每幅图像不同,放射科医生在生成报告时,由于与先前检查和发现的比较,会受到一定程度的偏倚影响。
结论
本研究证明,AI在检测血管内卒中治疗后非增强计算机断层扫描中的颅内出血方面可以达到高敏感度。然而,其较高的假阳性率表明存在过度判读出血的趋势。放射科医生在独立影像评估方面保持优于AI的总体诊断准确性。AI辅助决策对卒中管理和二级预防策略的临床影响是积极的,但值得进一步研究。