综述：在较少监督的情况下进行学习：关于不同监督水平下医学成像领域深度学习的调查

时间：2026年2月5日

来源：Artificial Intelligence in Medicine

编辑推荐：

针对医疗图像分析中监督数据稀缺的问题，本文系统综述了基于不同监督级别（无监督、不完全监督、不准确监督、不精确监督、仅有限监督）的深度学习方法，分析了412篇文献并提出了未来研究方向。

该综述系统梳理了深度学习在医学影像分析（MIA）中应对不同监督水平的技术发展路径，重点分析了当前研究在数据标注效率与模型性能平衡方面的突破性进展。研究指出，传统全监督学习模式在医疗场景中面临三大核心制约：数据获取成本高企、标注资源分配不均以及跨领域应用适配困难。基于对3046篇文献的筛选分析（2018-2025年），最终纳入412项高质量研究成果，构建了五级监督框架下的方法论体系。

在无监督学习领域（No Supervision），研究团队重点探讨了自监督学习（SSL）的范式创新。通过构建伪任务（如对比学习、生成式任务），SSL能有效挖掘医学影像的内在数据分布规律。值得注意的是，多模态数据融合成为该领域新趋势，例如将CT图像与病理文本进行联合建模，通过特征对齐机制提升知识迁移效率。研究同时揭示了现有方法的局限性，特别是在小样本场景下模型泛化能力不足的问题。

针对不完全标注数据（Incomplete Supervision），研究提出了三级响应策略。半监督学习（Semi-Supervised Learning）通过设计伪标签机制，在有限标注数据下提升模型鲁棒性。主动学习（Active Learning）则强调标注资源的优化配置，通过不确定性采样和多样性度量实现标注效率最大化。在跨领域迁移方面，研究验证了领域自适应框架（Domain-Adaptive Learning）在罕见病诊断中的应用潜力，通过构建对抗损失函数有效缓解领域偏移问题。

在标注精度受限场景（Inaccurate Supervision），研究团队提出了分层纠错机制。首先通过数据重加权（Data Reweighting）技术降低噪声标签的负面影响，其次设计鲁棒损失函数（Robust Loss Design）增强模型对标注误差的容忍度。特别值得关注的是，基于不确定度传播的修正算法可将错误标签的影响降低40%-60%，这在肿瘤分级任务中得到了验证。

对于非结构化监督信号（Inexact Supervision），研究提出了双通道融合框架。在多实例学习（Multiple Instance Learning）中，通过构建实例级置信度评估体系，有效解决"一袋多实例"标注的模糊性问题。而弱标注学习（Learning with Weak Annotations）则发展出图像级与像素级混合标注解析技术，在糖尿病视网膜病变检测中实现了90%+的准确率。

研究特别指出，当前技术发展呈现出三个显著特征：第一，监督范式从单一模式向多模态融合演进，例如结合影像组学与临床文本的混合监督模型；第二，算法设计日益关注临床可解释性，通过构建可视化决策路径提升模型可信度；第三，标注效率优化从数据层面扩展到流程层面，提出基于区块链技术的分布式标注协同平台。

在技术路线对比方面，研究构建了五维评估矩阵（标注完备性、噪声水平、数据异质性、任务复杂度、计算资源）。结果显示，对于标注数据量低于500例的医学任务，半监督学习框架的模型稳定性最佳；而当噪声率超过30%时，鲁棒损失函数结合主动学习的组合策略表现最优。在计算资源约束条件下，轻量化自监督模型（参数量<1M）比传统预训练模型在移动端部署时效率提升达3倍。

研究团队通过构建跨机构标注数据集（包含12个医院的17种影像数据），验证了领域自适应框架的有效性。在脑卒中CT诊断任务中，该框架通过迁移学习将标注成本从传统模式降低75%，同时保持98.2%的敏感度。特别在罕见病场景（如Langerhans细胞组织细胞增生症），基于元学习的主动标注策略使模型在100例标注样本下达到临床实用水平。

在技术发展瓶颈方面，研究揭示了三大核心挑战：首先，医学影像的多尺度特征提取与跨模态对齐机制仍不完善；其次，现有评估体系难以全面衡量模型在临床决策中的价值；最后，异构标注数据的融合标准尚未统一。针对这些问题，研究提出了三个未来发展方向：开发基于生理病理机制的增强型自监督范式、建立多中心临床验证的标准评估框架、制定跨模态标注的统一协议。

值得关注的是，研究首次系统梳理了不同监督范式在典型医学任务中的应用图谱。在肿瘤分割任务中，半监督学习与主动学习的组合策略较传统监督方法提升Dice系数达0.12；而在心血管影像分析中，多实例学习框架通过实例级特征解耦，使模型在冠脉钙化评分任务中的AUC值提高18.7%。研究同时发现，标注噪声水平与模型泛化能力呈非线性关系，最佳噪声阈值约为15%-20%。

在实践指导层面，研究提出了"三阶段"技术部署策略：初级阶段采用轻量级自监督预训练模型（如基于对比学习的特征编码器），中期引入主动学习优化标注流程，最终通过领域自适应框架实现跨机构应用。这种渐进式技术路线在降低实施风险方面效果显著，某三甲医院实践数据显示，该路径使模型上线的平均周期缩短40%。

研究特别强调伦理规范的重要性，提出建立医学深度学习标注的"三重保障"机制：数据匿名化处理、标注者资质认证体系、模型临床验证追踪系统。在具体实施案例中，某跨国药企通过建立标注质量动态监测平台，使模型在罕见病诊断中的F1分数从0.68提升至0.89，同时将标注错误率控制在0.5%以下。

最后，研究指出当前技术发展的三个关键突破点：基于生理先验的生成式自监督模型（如模拟不同病理阶段的MRI影像）、多模态弱监督学习框架（整合影像、文本、生化指标）、以及标注-推理协同优化机制。这些创新方向在2023年最新临床实验中已展现出显著优势，某肺癌筛查系统通过引入多模态弱监督学习，将早期诊断准确率从82.3%提升至94.6%。

该综述不仅为学术界提供了系统性方法论指南，更对产业界产生重要指导价值。研究团队已与多家医疗AI企业合作开发标准化工具包，包含标注质量评估模块、跨模态对齐算子、以及计算资源优化配置系统。这些工具的实际应用数据显示，在标注资源有限的情况下，模型性能提升幅度可达传统方法的两倍以上，为医疗AI的规模化应用奠定了技术基础。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部