综述：在医学视觉问答领域，任务特定模型与大型视觉-语言模型的对比：一项综述

时间：2026年3月14日

来源：Expert Systems with Applications

编辑推荐：

医学视觉问答（Med-VQA）是结合计算机视觉和自然语言处理的临床决策支持技术。本文首次系统比较了任务特定模型（TSMs）与大规模视觉语言模型（VLMs）在Med-VQA中的性能差异，涵盖架构设计、知识融合、训练策略和可解释性机制，分析两者在准确性、泛化能力、计算效率和抗幻觉能力上的权衡，并提出混合模型、指令调优等未来方向。

徐华华|陈启深|何文轩|陈星源|高宏浩

上海大学计算机工程与科学学院，中国上海 200444

摘要

医学视觉问答（Med-VQA）是一项新兴的跨学科任务，它结合了计算机视觉和自然语言处理技术，以实现基于医学图像的自动化临床决策支持。深度学习的最新进展催生了两种主要的模型范式：特定任务模型（TSMs），这些模型针对特定的数据集和临床任务进行定制；以及大型视觉语言模型（VLMs），它们利用大规模预训练来实现跨模态的强泛化能力。然而，对于这两种方法进行全面和比较性的理解仍然不足。本调查首次系统地对比了Med-VQA领域中的TSMs和VLMs。本文引入了一个统一的分类体系，涵盖了架构策略、知识整合技术、预训练方法和可解释性机制。文章回顾了50多个代表性模型，并在多个数据集上对其性能进行了基准测试。此外，本文还分析了准确性、泛化能力、可解释性和计算效率之间的权衡，并探讨了常见的挑战，如幻觉现象、模态偏差和数据稀缺问题。最后，本文概述了新兴趋势和未来发展方向，包括混合TSM-VLM系统、指令调优以及可信的VQA框架，以指导临床可行的Med-VQA解决方案的开发。

引言

医学视觉问答（Med-VQA）是一项多模态任务，模型能够根据医学图像回答临床问题（Dong等人，2025年；Lin等人，2023年）。它将计算机视觉和自然语言处理相结合，使得在医疗环境中能够进行基于临床的推理和交流（Hartsock & Rasool，2024年）。具体而言，Med-VQA涉及开发能够利用各种医学成像模式（包括X光片、计算机断层扫描（CT）、磁共振成像（MRI）、超声波（US）和病理图像）准确回答临床问题的计算模型。与主要关注疾病检测或分类的传统医学图像分析任务不同，Med-VQA需要具备理解复杂的临床情境、对复杂医疗场景进行推理以及生成精确自然语言回答的高级能力。由于现实医疗环境中存在若干紧迫挑战，因此迫切需要Med-VQA系统。首先，放射学和病理学解释通常需要大量的专业知识和时间，尤其是在资源不足或病例量大的医院中。其次，日益增加的影像检查量加剧了诊断延迟和临床医生的认知负担。第三，在专家资源有限的地区，自动化的图像问答工具可以帮助进行病例分诊、患者教育和远程医疗。这些需求凸显了能够提供快速、可解释且准确的基于图像的答案的智能系统的临床价值。

为应对这些挑战，出现了两种技术范式。特定任务模型（TSMs）通常为个别数据集和成像模式设计，注重准确性和效率。它们通过定制的融合策略、领域知识整合和可解释性组件精心构建，非常适合在资源受限或安全至关重要的环境中部署。相比之下，大型视觉语言模型（VLMs）受到通用多模态基础模型的启发，利用大规模的图像-文本语料库进行预训练，展现出强大的零样本学习和迁移能力，但代价是计算需求较高且可能存在幻觉现象。

尽管两个方向都取得了令人鼓舞的进展，现有文献缺乏对这两种方法体系的系统比较。专门化和大型多任务模型在泛化能力、可解释性、临床可靠性和部署可行性方面有何差异？将它们应用于Med-VQA任务时各自的权衡是什么？为了回答这些问题，本调查全面回顾了Med-VQA中的TSMs和大型VLMs，包括它们的架构、训练策略、评估结果和应用场景。目前，Med-VQA中TSMs和VLMs之间的区别缺乏明确的时间或技术划分。因此，为了便于组织和比较，本调查根据模型架构、数据量需求、计算规模以及最重要的多任务能力，将特定任务模型与视觉语言模型区分开来。

目前，还没有系统性地比较Med-VQA领域中TSMs和大型VLMs的调查，而这正是本调查旨在解决的关键空白。表1提供了现有Med-VQA调查的比较总结。Al-Sadi、Al-Ayyoub、Jararweh和Costen（2021年）的早期调查专注于ImageCLEF VQA-Med 2019基准测试，提出了一个分层的、按问题类型路由的流程，其核心组件是基于CNN的分类器。Lin等人（2023年）的研究早于大型视觉语言模型的广泛应用，仅关注特定任务的模型。同样，Chen等人（2024a）仅讨论了VLMs。Al-Hadhrami、Menai、Al-Ahmadi和Alnafessah（2023年）同时涵盖了TSMs和大型VLMs，但未讨论幻觉问题，这是基于大型VLM的方法的一个已知局限性。相反，Li、Li和Li（2024年）主要关注大型视觉语言模型，忽略了专门化模型的贡献；而Hartsock和Rasool（2024年）虽然提到了幻觉问题，但也忽略了专门化模型的潜力。Dong等人（2025年）提供了更平衡的讨论，涵盖了TSMs和大型VLMs，并讨论了幻觉和可解释性等关键问题；然而，它缺乏对TSMs和大型VLMs在性能、计算资源和可靠性方面的正式比较。

本调查系统地回顾了Med-VQA背景下特定任务模型和大型视觉语言模型的最新发展、优势和局限性。此外，本文还讨论了开放性挑战和未来研究方向，为研究人员、临床医生和开发者在医学视觉问答系统的进展和实际应用方面提供了实用见解。调查结构如下：第2节回顾了现有的TSM方法，包括融合算法、外部知识整合、反事实训练等策略；第3节涵盖了大型VLMs，讨论了零样本方法、微调策略（全参数调整和参数高效调整）；第4节介绍了Med-VQA任务常用的数据集和评估指标；第5节详细比较了TSMs和大型VLMs在性能、计算资源及其各自的优缺点；第6节概述了Med-VQA中存在的挑战，如模态偏差、对象定位、可解释性和泛化能力；最后，第7节总结了本文。

章节摘录

文献搜索与筛选策略

为了确保全面覆盖和可重复性，本文在五个主要的学术数据库（Semantic Scholar、Google Scholar、PubMed、IEEE Xplore和ACM数字图书馆）进行了系统的文献搜索和筛选。搜索旨在捕捉以Med-VQA任务为导向的研究以及明确涉及Med-VQA风格评估或问题设置的密切相关的医学视觉语言研究。搜索查询围绕几个关键点构建

特定任务的Med-VQA模型

本节系统地研究了专为Med-VQA任务设计的特定任务模型。如图2的蓝色部分所示，这些模型优先考虑领域特定的推理、可解释性和计算效率，使其非常适合资源受限的临床环境。与在多种模态和任务中表现出强泛化能力的大型VLMs不同，TSMs通常为了在狭窄范围内实现定制的性能而牺牲了迁移能力

大型视觉语言模型在Med-VQA中的进展

视觉语言模型通过在大规模图像-文本语料库上的预训练，实现了强大的多模态推理，从而为Med-VQA领域带来了范式转变。与TSMs不同，VLMs旨在通用应用，并具备强大的零样本学习和迁移能力，通常不需要大量的任务特定注释。本节系统地回顾了VLMs在Med-VQA任务中的应用，重点关注五种关键策略

数据集

本小节讨论了常用的数据集：

VQA-MED： VQA-MED数据集系列包含四个变体，最初在ImageCLEF 2018挑战赛中推出（Hasan等人，2018年）。作为第一个公开可用的Med-VQA数据集，它使用半自动流程从图像描述生成问答（QA）对。最初，一个基于规则的系统通过句子简化、答案短语识别等步骤产生候选的QA对

特定任务模型的定量评估

根据表6，在融合算法类别中，最近的基于Transformer的融合方法显著优于早期的CNN-LSTM模型。例如，Q2ATransformer（Swin-Transformer视觉框架、Bert语言框架和Transformer融合）在VQA-RAD和PathVQA基准测试中达到了最先进的准确率。具体来说，Q2ATransformer在VQA-RAD上的准确率为80.5%，在PathVQA上的准确率为74.6%，远高于依赖简单CNN的旧模型

Med-VQA中的关键挑战和开放性问题

模态偏差：在VQA领域，一个显著挑战是模型依赖于表面的语言相关性，通常称为语言先验，这可能导致不准确或误导性的临床答案。Zhan等人（2023年）通过引入一个修改后的SLAKE-CP数据集（SLAKE数据集的重新结构版本），讨论了当前Med-VQA模型中可能存在的语言偏差问题，该数据集在训练集和测试集之间的答案分布进行了调整