摘要:
图像表示和文本表示之间的差异,通常被称为“模态差距”,仍然是视觉语言模型(VLMs)在医学图像分割任务中面临的一个重大障碍。这一差距使得多模态融合变得复杂,从而限制了分割性能。为了解决这一挑战,我们提出了基于证据驱动的视觉语言模型(EviVLM)——一种将证据学习(EL)集成到VLM中的新范式,以系统地测量和减轻模态差距,从而提升多模态融合的效果。为了实现这一范式,我们设计了一种证据亲和力图生成器(EAMG),通过学习全局跨模态亲和力图来收集互补的跨模态证据,从而细化特定模态的证据表示。进一步提出了证据差异相似性学习(EDSL)方法,通过对图像和文本证据表示之间的双向相似性矩阵进行偏差-方差分解来收集一致的跨模态证据。最后,利用主观逻辑将收集到的证据映射为意见,并引入基于Dempster-Shafer理论的组合规则来进行意见聚合,从而量化模态差距并促进有效的多模态整合。在三个公开的医学图像分割数据集上的实验结果表明,所提出的EviVLM能够达到业界领先的性能水平。代码可在以下链接获取:https://github.com/QingtaoPan/EviVLM。