PathVLM-Eval:开放视觉语言模型在病理学中的性能评估与临床应用潜力探索

时间:2025年6月6日
来源:Journal of Pathology Informatics

编辑推荐:

本研究针对视觉语言模型(VLMs)在病理学专科领域评估不足的问题,通过VLMEvalKit框架对60余种开放VLMs(包括LLaVA、Qwen2-VL等系列)进行系统性评测。研究发现Qwen2-VL-72B-Instruct以63.97%准确率领先,揭示了模型规模与病理图像理解能力的非线性关系,为AI辅助病理诊断提供了重要基准。

广告
   X   

在人工智能技术飞速发展的今天,视觉语言模型(Vision-Language Models, VLMs)已成为跨模态理解的重要工具。然而,这些模型的评估长期局限于通用领域,在病理学等专业医疗场景中的表现仍属未知。病理诊断作为疾病诊断的"金标准",其数字化进程正面临巨大挑战——全球范围内病理医师短缺,传统人工阅片效率低下,而现有AI解决方案往往缺乏对复杂临床语境的理解能力。

这一背景下,研究人员开展了PathVLM-Eval研究,旨在建立首个针对病理学的大规模VLM评估体系。研究选取了包含PubMed文献、社交媒体内容和教育资料三大来源的PathMMU数据集,该数据集以多选题(MCQs)形式呈现真实病理图像与临床问题。通过VLMEvalKit这一开源评估框架,团队对60余种前沿VLMs进行了零样本测试,涵盖LLaVA、Qwen-VL、InternVL等主流系列,模型参数规模从1B跨越至72B,创造了该领域最全面的性能基准。

关键技术方法包括:1) 采用VLMEvalKit标准化评估流程;2) 基于PathMMU数据集的3个子集(PubMed/3068样本、SocialPath/1805样本、EduContent/1938样本);3) 设计原始图像、全模糊、部分模糊和全黑四种视觉条件;4) 量化分析模型规模-性能关系。

研究结果揭示多项重要发现:

模型性能排名方面,Qwen2-VL-72B-Instruct以63.97%平均准确率位居榜首,在PubMed子集达到75.1%的峰值表现。紧随其后的是InternVL2.5系列,其38B参数版本意外超越78B版本(62.7% vs 62.5%),表明参数规模并非决定性能的唯一因素。

视觉依赖性分析通过四种图像条件的对比实验发现,即使在完全黑屏状态下,模型仍能保持基础性能(如Qwen2-VL-72B在黑屏条件下PubMed准确率仅下降14.1个百分点),提示PathMMU中部分问题可通过纯文本推理解决。但部分模糊与全模糊条件的性能梯度差异(平均8.3个百分点)证实视觉细节对复杂病理判读的关键作用。

模型规模与性能关系呈现非线性特征。将模型按参数量分为≤10B、10-30B和>30B三组后发现:小型模型中Phi-3-Vision(4B)以39%准确率超越部分7B模型;中型组Qwen2-VL-7B(55.4%)表现接近大型模型;而>30B组虽整体领先,但72B与40B模型差距不足7%,显示边际效益递减规律。

量化模型评估显示,4位精度的Qwen2-VL-7B-Instruct-GPTQ仅损失0.75%准确率,8位精度几乎无损,为临床部署提供了可行性验证。与现有评估体系对比发现,VLMEvalKit框架下LLaVA-1.5-7B成绩(37.4%)较PathMMU原报告(41.6%)更保守,反映更严格的防数据污染机制。

研究结论指出,当前VLMs在病理学应用呈现三大特征:1) 模型家族差异大于规模差异,Qwen2架构展现最优扩展性(R2
=0.92);2) 视觉-文本协同效应显著,但现有数据集的视觉依赖性需增强;3) 7B级量化模型已达临床可用阈值(>55%准确率)。

该研究的意义在于建立了首个病理专科的VLM评估标准,其开源的PathVLM-Eval平台将持续跟踪模型进展。作者提出的"人机协同"工作流(图7)显示,VLMs可实现病例初筛(敏感度82%)与报告生成,使病理医师专注高危病例审核。未来需开发更具视觉依赖性的病理数据集,并探索领域自适应(Domain Adaptation)技术以缩小与人类专家71.8%准确率的差距。这项发表于《Journal of Pathology Informatics》的工作,为AI驱动的新一代数字病理系统奠定了基准框架。

生物通微信公众号
微信
新浪微博


生物通 版权所有