深度学习算法已展现出从“阴性”乳腺X光片中估算短期乳腺癌风险的潜力,有望指导补充影像检查或调整筛查间隔。然而,一个核心的临床转化难题在于:这些在特定数据集上表现优异的算法,在面对不同医院、不同品牌设备采集的真实世界、大规模国家筛查数据时,其表现是否依然稳健可靠?此前,缺乏基于完整国家筛查项目数据的比较性验证。为了回答这个问题,一项大规模回顾性研究得以开展,其成果发表于《npj Digital Medicine》期刊。
研究首先评估了四种算法在预测未来罹患乳腺癌(所有类型)风险上的整体判别能力。结果表明,算法间存在明显的性能排名。在包含所有未来癌症的测试中,整体AUC(Area Under the Curve,曲线下面积)范围在0.65至0.72之间。值得注意的是,当进一步聚焦于那些更具临床挑战性的间期癌时,算法的AUC值范围提升至0.67至0.77,显示出对这类高恶性度癌症更强的识别潜力。一个关键发现是,在两种不同的乳腺X光摄影系统(Philips vs. GE)之间,仅有一种算法的性能表现出统计学上的显著差异,这提示大部分顶级算法对不同影像采集设备具有一定的鲁棒性,但系统特异性差异仍需关注。