目前的基于锚点的2D CNN检测主要分为两类:两阶段方法(例如Faster R-CNN及其变体),使用区域提议网络(RPN)进行区域提议,然后进行分类和回归(Ding et al. (2017); Dou et al. (2017); Ren, He, Girshick, & Sun (2016);以及一类阶段方法(例如SSD、YOLO),这些方法在速度和准确性之间取得平衡(Liu et al. (2016); Redmon & Farhadi (2017)。深度学习的最新进展在医学图像分析中表现出色(Jin et al. (2021); Wang et al. (2021b); Yang, Hou, & Ren (2022),并且越来越多的基于深度学习的方法被应用于肺结节检测(Marques et al. (2021); Rey, Arcay, & Castro (2021); Wang et al. (2021b))。然而,尽管基于锚点的方法在2D自然图像检测中表现出有效性,但在3D医学应用中存在关键局限性。这些问题包括:由于密集的锚点采样导致的计算效率低下(例如2D RetinaNet使用了超过100K个锚点(Lin et al. (2017a)),在体积数据中内存成本呈指数级增长,超参数依赖性(数量、大小、长宽比)需要手动设计,以及难以适应尺寸变化极大的肺结节,这特别影响了小结节的检测(Ding et al. (2017); Zlocha, Dou, & Glocker (2019))。
为了解决这些挑战,最近的研究引入了优化的架构和新的融合策略。例如,Zamanidoost等人提出了一种基于Faster R-CNN的优化多尺度CNN(OMS-CNN),结合了元启发式优化来增强特征提取和减少假阳性,从而实现对不同大小结节的高敏感性(Zamanidoost, Ould-Bachir, & Martel (2025)。Jian等人开发了一种通道混洗切片感知网络(CSSANet),利用切片间的注意力和通道混洗机制来更好地捕捉连续CT切片中的上下文信息,从而提高对细微结节的检测准确性(Jian et al. (2025)。此外,Zhou等人提出了LN-DETR,这是一种基于变压器的检测器,通过跨尺度特征融合和上下文重加权模块进行了增强,保持了检测性能的同时降低了计算开销(Zhou, Xu, Liu, & Liu (2025)。这些方法反映了人们为克服基于锚点框架的局限性并提高肺结节检测鲁棒性而持续的努力。
无锚点的一阶段检测方法在自然图像检测中也获得了关注(Duan et al. (2019); Tian, Shen, Chen, & He (2019); Wang et al. (2021a); Zhou et al. (2019a),通过关键点(中心/角点/极端点)和偏移向量来表示对象(Duan et al. (2019); Law & Deng (2018); Zhou, Zhuo, & Krahenbuhl (2019b)。然而,这些方法在3D医学图像中存在定位瓶颈,例如参考点落在目标区域外的中心错位、对不规则形态的几何不灵活性以及有限的体积适应性。值得注意的是,虽然临床肺结节诊断主要使用球体表示(中心坐标+半径)(MacMahon et al. (2017); Setio et al. (2017)),但大多数框架仍然使用边界框注释(Everingham & Eslami (2012); Lin et al. (2014)。
肺结节检测在临床上是早期肺癌干预的关键,推动了广泛的计算机辅助诊断(CAD)研究。传统的CAD系统使用两阶段基于锚点的检测器(例如Faster R-CNN的3D扩展/FPN(Lin, Goyal, Girshick, He, & Dollár (2017b); Ren et al. (2016))以及单独的假阳性减少方法(Ding et al. (2017); Dou et al. (2017))。此外,焦点损失(Lin et al. (2017a)被用于训练基于锚点的检测器(Wang et al. (2020)以减轻
在这项研究中,所提出的框架在大型公共挑战数据集LUNA16(Setio et al. (2017))上进行了验证。该数据集包含888张低剂量CT扫描图像,其中标注了肺结节的质心和直径。对于LUNA16实验,数据集被分为训练子集(90%)和测试子集(10%),并对子集中的所有样本(1,186张)进行了数据增强操作(例如旋转、缩放、翻转),从而增加了总数