多模态推理结合了视觉感知和自然语言理解,以解决复杂的认知任务,是人工智能中的一个基础挑战(Ma等人,2024年;Chowdhury和Soni,2025年)。在这些任务中,视觉问答(VQA)已成为一个关键的基准任务,要求模型生成关于视觉内容的答案(Antol等人,2015年;Hudson和Manning,2019年;Cao等人,2025年)。然而,随着AI系统越来越多地应用于医疗保健、自动驾驶和金融等安全关键领域,仅仅准确预测答案是不够的。人们越来越需要可解释性:能够通过人类可理解的解释来证明推理过程(Mersha等人,2024年;Tjoa和Guan,2020年)。这一需求推动了可解释视觉问答(EVQA)的发展,这是一种扩展任务,要求模型同时预测答案并生成多模态解释(例如,包含对视觉区域的参考的自然语言解释)(Chen和Zhao,2022年;Xue等人,2024年)。
EVQA旨在通过使推理过程透明化来解决深度学习模型的“黑箱”性质。如图1所示,EVQA不仅提供了问题“手机和咖啡杯的颜色相同吗?”的正确答案,还解释了推理过程,从而使问答过程具有更强的可解释性和透明度。
尽管EVQA取得了显著进展,但现有方法仍存在两个关键局限性,这源于它们依赖于相关性而非因果关系:(1)虚假的跨模态相关性:传统的基于注意力的方法(例如,X-VQA(Alipour等人,2020年)和HINT(Wang等人,2022年)利用基于训练频率的捷径偏见(如“红色苹果”),导致在分布外场景中的失败(例如,在没有苹果的情况下将红色杯子错误分类为苹果);(2)答案与解释之间的一致性低:独立生成答案和解释忽略了它们的因果依赖关系,导致矛盾(例如,REX(Chen和Zhao,2022年)在GQA-REX上的一致性仅为74.69%)。这些失败突显了需要进行因果推理以区分真正的关系并确保逻辑一致性。
因果推断提供了一个原理性的框架,用于区分相关性和因果关系,为解决这些局限性提供了途径(Pearl,2016年;Yao等人,2021年)。通过建模因果关系(例如,苹果的颜色导致答案“红色”),而不是仅仅关联,模型可以稳健地泛化并避免虚假捷径。最近在跨模态因果推理方面的进展表明,在VQA中减少偏见方面具有潜力(Liu等人,2023年;Chen等人,2025年),但这些方法仅关注答案预测,而不扩展到可解释的推理。
同时,神经符号推理作为一种强大的范式出现,通过将推理过程转换为可解释的符号程序来提高可解释性(例如,“选择对象→验证颜色→回答”(Yi等人,2018年;Gupta和Kembhavi,2023年)。然而,现有的用于EVQA的神经符号方法(Xue等人,2024年)未能明确建模答案与解释之间的因果联系,导致不一致性。
为了弥合这些差距,我们提出了跨模态因果推理(CMCR)框架,它在三个关键方面与最接近的比较方法Pro-VCIN(Xue等人,2024年)不同:(1)采用双重因果干预(后门/前门)来针对语言和视觉混淆因素(Pro-VCIN缺乏特定于模态的去偏);(2)引入基于图变换器的程序执行模块来处理复杂的有向无环图依赖关系(Pro-VCIN使用线性程序序列);(3)通过变分推断确保因果一致性(Pro-VCIN依赖于结构因果模型,没有明确的潜变量建模)。CMCR的设计目标是:(1)使用因果干预识别和消除虚假的跨模态相关性;(2)建模答案与解释之间的因果依赖关系以确保一致性;(3)生成基于可解释符号推理步骤的人类友好解释。
为了突出CMCR在因果建模和答案解释一致性方面的优势,我们在表1中将其与最先进的可解释方法进行了比较。现有的基于注意力的可解释VQA方法(例如,X-VQA(Alipour等人,2020年)和HINT(Wang等人,2022年)仅提供相关性解释(例如,视觉显著性图),无法区分真正的因果关系和虚假相关性。CMCR通过明确建模“输入→解释”的因果链,提供了可验证的推理基础。
主要贡献如下:
- •
我们在结构因果模型中形式化EVQA,以区分真正的因果路径。
- •
我们引入了一个神经符号解释生成器来生成多模态解释。
- •
我们设计了双重因果干预和变分因果推断,以确保答案与解释的一致性。
- •
实验表明,CMCR的性能优于现有方法。