编辑推荐:
这篇综述系统阐述了自监督学习(SSL)在X射线影像(包括常规X光、CT、Mammography和牙科X光)中的革命性应用,提出SSL通过无监督预训练(pretext task)和下游任务微调的两阶段范式,有效解决了医学影像标注数据稀缺、跨模态差异等核心痛点,尤其在分类(如COVID-19检测)、分割(如器官/病变定位)和多模态融合(如影像-文本联合建模)任务中展现出超越监督学习的潜力。
人工智能时代的医学影像革命
医学影像领域正经历着自监督学习(SSL)技术带来的范式变革。不同于依赖海量标注数据的传统监督学习,SSL通过设计巧妙的代理任务(pretext task),从无标注数据中自动提取特征表示,为医学影像分析开辟了新路径。
自监督学习基础架构
SSL的核心流程包含两个关键阶段:预训练阶段通过代理任务(如图像修复、拼图重组等)构建特征表示,下游阶段则针对具体临床任务进行微调。根据代理任务设计差异,主流方法可分为生成式与对比式两大流派。
生成式模型通过编码器-解码器结构学习数据分布,典型代表包括:
自回归模型(PixelCNN++等)——逐像素预测,擅长捕捉局部依赖但忽略全局关联
自编码器变体——包含去噪自编码器(DAE)、卷积自编码器(CAE)和变分自编码器(VAE),在图像压缩、降噪等预处理环节表现突出
对比式模型则通过构建正负样本对进行特征区分,包含:
• 上下文-实例对比(如DeepInfoMax)——建立局部特征与全局语境关联
• 实例-实例对比(如MoCo、SimCLR)——通过数据增强生成相似样本对
X射线模态应用全景
常规X光领域,MoCo-CXR通过定制化数据增强(10°随机旋转+水平翻转)构建胸部X光特征表示,在CheXpert数据集上AUC达0.813,显著优于ImageNet预训练模型。COVID-19疫情期间,C2L模型通过双阶段预训练策略(自然图像→医学影像),将肺炎检测准确率提升至98.6%。
CT影像分析面临三维数据处理的特殊挑战。Rubik's Cube++模型通过体素重组任务学习空间特征,在胰腺分割任务中DSC达84.08%。联邦对比学习(FCL)框架则实现跨机构数据协同训练,在ACDC数据集上仅需1例标注即可达到0.656 Dice系数。
乳腺X线摄影领域,研究者发现传统旋转预测等代理任务不适用于微小肿瘤检测,转而采用拼图重组策略,在CBIS-DDSM数据集上取得0.815 AUC。牙科X光中,LCD-Net通过对比学习预训练+双分支网络,将颌骨肿瘤检测IoU提升至71.26%。
多模态与预处理创新
突破性的M3AE模型通过掩码自编码架构,实现医学影像-文本的跨模态对齐,在SLAKE问答数据集准确率达87.82%。在预处理环节,Poisson2Sparse方法针对泊松噪声特性,使荧光显微镜图像PSNR提升2dB;Deformed2Self模型结合运动估计与降噪,将动态CT信噪比提升31.77%。
挑战与未来方向
尽管优势显著,SSL仍面临三大挑战:
三维数据对比学习需要超大批次(batch size),计算成本高昂
解码器随机初始化可能破坏预训练特征
医学影像相似解剖结构导致假阴性样本激增
未来研究将聚焦:跨模态通用表征学习、小样本适应算法,以及符合临床规范的模型可解释性研究。正如综述所强调,SSL正打破"算法开发多、临床落地少"的困局,为智慧医疗提供关键技术支撑。
生物通微信公众号
生物通 版权所有