人工智能分诊与决策支持在乳腺X线摄影及数字乳腺断层合成成像用于乳腺癌筛查中的一项配对、非劣效性试验

时间：2026年3月20日

来源：Nature Medicine

编辑推荐：

为解决日益增长的乳腺筛查工作量与放射科医生短缺的矛盾，并评估AI能否在保证筛查质量的同时安全分流低风险病例，研究人员开展了一项针对31,301名女性的前瞻性、配对、非劣效性临床试验。该研究比较了“部分自主AI支持的筛查策略”（AI判定为低风险的检查自动判为正常）与“标准双盲读片策略”。结果显示，AI策略将放射科医生工作量降低了63.6%，癌症检出率(CDR)提高了15.2%（从6.3‰增至7.3‰，P<0.001），但召回率(RR)增加了14.8%，未能证明非劣效性。该研究证实了在包含数字乳腺断层合成成像(DBT)的筛查中实施部分自动化AI工作流的可行性，为应对筛查资源挑战提供了重要依据。

乳腺X线筛查是早期发现乳腺癌、降低相关死亡率的关键公共卫生手段。然而，这一体系正面临双重挑战：一方面，为了提升准确性，许多筛查项目采用双人阅片或更先进的数字乳腺断层合成成像(DBT)，但这极大地增加了放射科医生的工作负荷；另一方面，全球范围内合格乳腺影像医生的短缺日益严重，使得筛查项目难以持续。与此同时，人工智能(AI)技术在医学影像分析领域展现出巨大潜力，既往研究提示，AI系统不仅能辅助医生提高诊断准确性，还可能独立识别出大量低风险的筛查影像。那么，能否大胆地让AI“接管”这部分低风险影像的初步判读，从而将宝贵的人力资源集中于更可疑的病例上？这种“人机协作”的新模式，能否在显著减轻医生负担的同时，确保甚至提升筛查的效能与安全性？为了在真实世界环境中前瞻性地验证这一设想，一项名为AITIC的临床试验应运而生。

这项研究发表在《Nature Medicine》上，由西班牙科尔多瓦乳腺癌筛查项目的研究团队完成。这是一项前瞻性、配对、非劣效性的准确性研究。从2022年3月到2024年1月，研究共纳入了31,301名参与常规筛查的女性。每名女性的检查（包括数字乳腺X线摄影(DM)和数字乳腺断层合成成像(DBT)）都会接受两种并行的阅片策略：标准双盲阅片（无AI支持）和部分自主AI支持的筛查策略。在AI策略中，商业AI系统(Transpara, v1.7)会对所有影像进行分析并给出1-10分的癌症风险评分。被AI判定为低风险（评分1-7）的检查（约占70%）将自动被分类为“正常”，无需放射科医生阅片；而被AI判定为风险较高（评分8-10）的检查，则由两位放射科医生在AI决策支持信息（如可疑区域标记和评分）的辅助下进行双盲阅片。研究的主要结局指标是放射科医生工作量、癌症检出率(CDR)和召回率(RR)。研究旨在验证，与标准策略相比，AI策略在CDR和RR上是否达到非劣效（预设非劣效性界值为相对变化5%），同时观察工作量的减少情况。该研究已在ClinicalTrials.gov注册（NCT04849776），并获得了伦理委员会的批准。

研究结果

主要结局

•
工作量：AI策略使放射科医生的阅片工作量大幅降低了63.6%。具体而言，标准策略下进行了62,602次阅片，而AI策略下仅需进行22,768次阅片，其余19,917份（63.6%）被AI判定为低风险的检查未经过人工阅片。
•
癌症检出率(CDR)：AI策略的CDR为7.3‰，显著高于标准策略的6.3‰，相对增加了15.2%（P<0.001）。因此，AI策略在CDR上不仅被证明非劣于标准策略，而且具有统计学上的优越性。
•
召回率(RR)：AI策略的RR为5.5%，高于标准策略的4.8%，相对增加了14.8%。其95%置信区间的下限超过了预设的非劣效性界值，因此未能证明RR的非劣效性。
•
阳性预测值(PPV)：两种策略的PPV相似，均在13.2%左右，表明尽管AI策略召回了更多人，但其召回人群中最终确诊为癌症的比例与标准策略相当。

次要结局及按影像模态进行的筛查表现分析

•
不同影像模态的差异：亚组分析显示，工作量在DM和DBT中均有显著降低（分别降低62.1%和65.5%）。然而，CDR和RR的变化在两种模态中不同：
- •
  在DM中：AI策略的CDR比标准策略高出33.7%（绝对差值1.6‰），RR高出28.2%（绝对差值1.3%）。
- •
  在DBT中：AI策略的CDR和RR与标准策略相似，未观察到显著差异。
•
检出癌症的特征：总体而言，AI策略比标准策略多检出了10.1%的浸润性癌和35%的原位癌。在DM亚组中，AI策略还检出了更多分级为G1、分期为T1、淋巴结阴性(N0)的浸润性癌，以及更多管腔A型(Luminal A)肿瘤。在DBT亚组中，两种策略检出的癌症在组织病理学特征上无差异。
•
两种策略各自漏诊的癌症：有24例癌症仅被标准策略检出，其中11例被AI系统评分为低风险（1-7分），因此在AI策略中被自动判为正常。另一方面，有54例癌症仅被AI策略检出，其中大部分（63%）得到了AI策略中两位放射科医生的一致召回。

讨论与结论

这项AITIC试验首次在前瞻性、真实世界的乳腺癌筛查环境中，系统评估了将AI用于完全自主分流低风险检查（无需放射科医生阅片）并结合AI辅助决策支持高风险检查的“部分自动化”工作流程。其核心结论是：在包含DM和DBT的混合筛查项目中，这种AI分诊与决策支持策略能够安全地实现 工作量的大幅削减（约64%）和癌症检出率的显著提升（约15%）。尽管召回率有所增加且未达到非劣效标准，但由于阳性预测值(PPV)保持不变，且多检出的癌症中包含了更多早期、预后更好的亚型（特别是在DM中），这种召回率的增加被认为具有临床合理性，尤其是在DBT筛查中，巨大的阅片时间节约效益尤为突出。

研究意义重大。首先，它为解决全球乳腺癌筛查项目普遍面临的“工作量危机”和“人力资源短缺”问题提供了一个极具前景的AI解决方案。通过让AI“过滤”掉约三分之二的低疑似检查，放射科医生得以将更多时间和精力集中在最高风险的病例上，这不仅能提升工作效率，还可能通过AI的辅助提高诊断敏感性。其次，该研究证实了AI策略在更先进、也更耗时的DBT筛查中同样有效，且工作量减少幅度更大，这对正在推广DBT的地区具有重要参考价值。此外，研究也客观揭示了当前模式的局限性，即召回率的控制仍需优化，这提示未来的AI整合策略可能需要结合共识会议等流程来平衡敏感性与特异性。

当然，将大部分筛查检查的初步判读完全交由AI也引发了伦理和安全性的深刻讨论。研究中有11例癌症因被AI判定为低风险而漏诊，这凸显了完全依赖AI的潜在风险。因此，在临床广泛应用此类“自主AI筛查”工作流之前，必须建立严格的后市场AI性能持续监测体系、自动化的图像质量控制流程以及明确的法律责任框架。此外，本研究为单中心、使用单一AI系统的结果，其普遍性有待在不同人口、不同筛查流程和不同AI系统中进一步验证。

总之，AITIC试验为人工智能深度融合于乳腺癌筛查的日常实践迈出了关键一步。它证明了一种“人机协同、优势互补”的新模式是可行且有效的，即在AI高置信度排除低风险的同时，利用其决策支持能力提升医生对中高风险病例的判断水平。这不仅是技术的胜利，更是对传统筛查工作流程的一次重要重构，为在资源约束下维持乃至提升全民乳腺癌筛查质量开辟了新路径。未来的挑战在于如何围绕这一新模式，构建确保其安全、公平、稳健运行的生态系统。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部