医学视觉问答(Med-VQA)是一项多模态任务,模型能够根据医学图像回答临床问题(Dong等人,2025年;Lin等人,2023年)。它将计算机视觉和自然语言处理相结合,使得在医疗环境中能够进行基于临床的推理和交流(Hartsock & Rasool,2024年)。具体而言,Med-VQA涉及开发能够利用各种医学成像模式(包括X光片、计算机断层扫描(CT)、磁共振成像(MRI)、超声波(US)和病理图像)准确回答临床问题的计算模型。与主要关注疾病检测或分类的传统医学图像分析任务不同,Med-VQA需要具备理解复杂的临床情境、对复杂医疗场景进行推理以及生成精确自然语言回答的高级能力。由于现实医疗环境中存在若干紧迫挑战,因此迫切需要Med-VQA系统。首先,放射学和病理学解释通常需要大量的专业知识和时间,尤其是在资源不足或病例量大的医院中。其次,日益增加的影像检查量加剧了诊断延迟和临床医生的认知负担。第三,在专家资源有限的地区,自动化的图像问答工具可以帮助进行病例分诊、患者教育和远程医疗。这些需求凸显了能够提供快速、可解释且准确的基于图像的答案的智能系统的临床价值。
为应对这些挑战,出现了两种技术范式。特定任务模型(TSMs)通常为个别数据集和成像模式设计,注重准确性和效率。它们通过定制的融合策略、领域知识整合和可解释性组件精心构建,非常适合在资源受限或安全至关重要的环境中部署。相比之下,大型视觉语言模型(VLMs)受到通用多模态基础模型的启发,利用大规模的图像-文本语料库进行预训练,展现出强大的零样本学习和迁移能力,但代价是计算需求较高且可能存在幻觉现象。
尽管两个方向都取得了令人鼓舞的进展,现有文献缺乏对这两种方法体系的系统比较。专门化和大型多任务模型在泛化能力、可解释性、临床可靠性和部署可行性方面有何差异?将它们应用于Med-VQA任务时各自的权衡是什么?为了回答这些问题,本调查全面回顾了Med-VQA中的TSMs和大型VLMs,包括它们的架构、训练策略、评估结果和应用场景。目前,Med-VQA中TSMs和VLMs之间的区别缺乏明确的时间或技术划分。因此,为了便于组织和比较,本调查根据模型架构、数据量需求、计算规模以及最重要的多任务能力,将特定任务模型与视觉语言模型区分开来。
目前,还没有系统性地比较Med-VQA领域中TSMs和大型VLMs的调查,而这正是本调查旨在解决的关键空白。表1提供了现有Med-VQA调查的比较总结。Al-Sadi、Al-Ayyoub、Jararweh和Costen(2021年)的早期调查专注于ImageCLEF VQA-Med 2019基准测试,提出了一个分层的、按问题类型路由的流程,其核心组件是基于CNN的分类器。Lin等人(2023年)的研究早于大型视觉语言模型的广泛应用,仅关注特定任务的模型。同样,Chen等人(2024a)仅讨论了VLMs。Al-Hadhrami、Menai、Al-Ahmadi和Alnafessah(2023年)同时涵盖了TSMs和大型VLMs,但未讨论幻觉问题,这是基于大型VLM的方法的一个已知局限性。相反,Li、Li和Li(2024年)主要关注大型视觉语言模型,忽略了专门化模型的贡献;而Hartsock和Rasool(2024年)虽然提到了幻觉问题,但也忽略了专门化模型的潜力。Dong等人(2025年)提供了更平衡的讨论,涵盖了TSMs和大型VLMs,并讨论了幻觉和可解释性等关键问题;然而,它缺乏对TSMs和大型VLMs在性能、计算资源和可靠性方面的正式比较。
本调查系统地回顾了Med-VQA背景下特定任务模型和大型视觉语言模型的最新发展、优势和局限性。此外,本文还讨论了开放性挑战和未来研究方向,为研究人员、临床医生和开发者在医学视觉问答系统的进展和实际应用方面提供了实用见解。调查结构如下:第2节回顾了现有的TSM方法,包括融合算法、外部知识整合、反事实训练等策略;第3节涵盖了大型VLMs,讨论了零样本方法、微调策略(全参数调整和参数高效调整);第4节介绍了Med-VQA任务常用的数据集和评估指标;第5节详细比较了TSMs和大型VLMs在性能、计算资源及其各自的优缺点;第6节概述了Med-VQA中存在的挑战,如模态偏差、对象定位、可解释性和泛化能力;最后,第7节总结了本文。