编辑推荐:
为解决日益增长的乳腺筛查工作量与放射科医生短缺的矛盾,并评估AI能否在保证筛查质量的同时安全分流低风险病例,研究人员开展了一项针对31,301名女性的前瞻性、配对、非劣效性临床试验。该研究比较了“部分自主AI支持的筛查策略”(AI判定为低风险的检查自动判为正常)与“标准双盲读片策略”。结果显示,AI策略将放射科医生工作量降低了63.6%,癌症检出率(CDR)提高了15.2%(从6.3‰增至7.3‰,P<0.001),但召回率(RR)增加了14.8%,未能证明非劣效性。该研究证实了在包含数字乳腺断层合成成像(DBT)的筛查中实施部分自动化AI工作流的可行性,为应对筛查资源挑战提供了重要依据。
乳腺X线筛查是早期发现乳腺癌、降低相关死亡率的关键公共卫生手段。然而,这一体系正面临双重挑战:一方面,为了提升准确性,许多筛查项目采用双人阅片或更先进的数字乳腺断层合成成像(DBT),但这极大地增加了放射科医生的工作负荷;另一方面,全球范围内合格乳腺影像医生的短缺日益严重,使得筛查项目难以持续。与此同时,人工智能(AI)技术在医学影像分析领域展现出巨大潜力,既往研究提示,AI系统不仅能辅助医生提高诊断准确性,还可能独立识别出大量低风险的筛查影像。那么,能否大胆地让AI“接管”这部分低风险影像的初步判读,从而将宝贵的人力资源集中于更可疑的病例上?这种“人机协作”的新模式,能否在显著减轻医生负担的同时,确保甚至提升筛查的效能与安全性?为了在真实世界环境中前瞻性地验证这一设想,一项名为AITIC的临床试验应运而生。
这项研究发表在《Nature Medicine》上,由西班牙科尔多瓦乳腺癌筛查项目的研究团队完成。这是一项前瞻性、配对、非劣效性的准确性研究。从2022年3月到2024年1月,研究共纳入了31,301名参与常规筛查的女性。每名女性的检查(包括数字乳腺X线摄影(DM)和数字乳腺断层合成成像(DBT))都会接受两种并行的阅片策略:标准双盲阅片(无AI支持)和部分自主AI支持的筛查策略。在AI策略中,商业AI系统(Transpara, v1.7)会对所有影像进行分析并给出1-10分的癌症风险评分。被AI判定为低风险(评分1-7)的检查(约占70%)将自动被分类为“正常”,无需放射科医生阅片;而被AI判定为风险较高(评分8-10)的检查,则由两位放射科医生在AI决策支持信息(如可疑区域标记和评分)的辅助下进行双盲阅片。研究的主要结局指标是放射科医生工作量、癌症检出率(CDR)和召回率(RR)。研究旨在验证,与标准策略相比,AI策略在CDR和RR上是否达到非劣效(预设非劣效性界值为相对变化5%),同时观察工作量的减少情况。该研究已在ClinicalTrials.gov注册(NCT04849776),并获得了伦理委员会的批准。
研究结果
主要结局
- •
工作量:AI策略使放射科医生的阅片工作量大幅降低了63.6%。具体而言,标准策略下进行了62,602次阅片,而AI策略下仅需进行22,768次阅片,其余19,917份(63.6%)被AI判定为低风险的检查未经过人工阅片。
- •
癌症检出率(CDR):AI策略的CDR为7.3‰,显著高于标准策略的6.3‰,相对增加了15.2%(P<0.001)。因此,AI策略在CDR上不仅被证明非劣于标准策略,而且具有统计学上的优越性。
- •
召回率(RR):AI策略的RR为5.5%,高于标准策略的4.8%,相对增加了14.8%。其95%置信区间的下限超过了预设的非劣效性界值,因此未能证明RR的非劣效性。
- •
阳性预测值(PPV):两种策略的PPV相似,均在13.2%左右,表明尽管AI策略召回了更多人,但其召回人群中最终确诊为癌症的比例与标准策略相当。
次要结局及按影像模态进行的筛查表现分析
- •
不同影像模态的差异:亚组分析显示,工作量在DM和DBT中均有显著降低(分别降低62.1%和65.5%)。然而,CDR和RR的变化在两种模态中不同:
- •
在DM中:AI策略的CDR比标准策略高出33.7%(绝对差值1.6‰),RR高出28.2%(绝对差值1.3%)。
- •
在DBT中:AI策略的CDR和RR与标准策略相似,未观察到显著差异。
- •
检出癌症的特征:总体而言,AI策略比标准策略多检出了10.1%的浸润性癌和35%的原位癌。在DM亚组中,AI策略还检出了更多分级为G1、分期为T1、淋巴结阴性(N0)的浸润性癌,以及更多管腔A型(Luminal A)肿瘤。在DBT亚组中,两种策略检出的癌症在组织病理学特征上无差异。
- •
两种策略各自漏诊的癌症:有24例癌症仅被标准策略检出,其中11例被AI系统评分为低风险(1-7分),因此在AI策略中被自动判为正常。另一方面,有54例癌症仅被AI策略检出,其中大部分(63%)得到了AI策略中两位放射科医生的一致召回。
讨论与结论
这项AITIC试验首次在前瞻性、真实世界的乳腺癌筛查环境中,系统评估了将AI用于完全自主分流低风险检查(无需放射科医生阅片)并结合AI辅助决策支持高风险检查的“部分自动化”工作流程。其核心结论是:在包含DM和DBT的混合筛查项目中,这种AI分诊与决策支持策略能够安全地实现 工作量的大幅削减(约64%)和癌症检出率的显著提升(约15%)。尽管召回率有所增加且未达到非劣效标准,但由于阳性预测值(PPV)保持不变,且多检出的癌症中包含了更多早期、预后更好的亚型(特别是在DM中),这种召回率的增加被认为具有临床合理性,尤其是在DBT筛查中,巨大的阅片时间节约效益尤为突出。
研究意义重大。首先,它为解决全球乳腺癌筛查项目普遍面临的“工作量危机”和“人力资源短缺”问题提供了一个极具前景的AI解决方案。通过让AI“过滤”掉约三分之二的低疑似检查,放射科医生得以将更多时间和精力集中在最高风险的病例上,这不仅能提升工作效率,还可能通过AI的辅助提高诊断敏感性。其次,该研究证实了AI策略在更先进、也更耗时的DBT筛查中同样有效,且工作量减少幅度更大,这对正在推广DBT的地区具有重要参考价值。此外,研究也客观揭示了当前模式的局限性,即召回率的控制仍需优化,这提示未来的AI整合策略可能需要结合共识会议等流程来平衡敏感性与特异性。
当然,将大部分筛查检查的初步判读完全交由AI也引发了伦理和安全性的深刻讨论。研究中有11例癌症因被AI判定为低风险而漏诊,这凸显了完全依赖AI的潜在风险。因此,在临床广泛应用此类“自主AI筛查”工作流之前,必须建立严格的后市场AI性能持续监测体系、自动化的图像质量控制流程以及明确的法律责任框架。此外,本研究为单中心、使用单一AI系统的结果,其普遍性有待在不同人口、不同筛查流程和不同AI系统中进一步验证。
总之,AITIC试验为人工智能深度融合于乳腺癌筛查的日常实践迈出了关键一步。它证明了一种“人机协同、优势互补”的新模式是可行且有效的,即在AI高置信度排除低风险的同时,利用其决策支持能力提升医生对中高风险病例的判断水平。这不仅是技术的胜利,更是对传统筛查工作流程的一次重要重构,为在资源约束下维持乃至提升全民乳腺癌筛查质量开辟了新路径。未来的挑战在于如何围绕这一新模式,构建确保其安全、公平、稳健运行的生态系统。