引导相关性注意力映射:重构可解释人工智能的新范式

时间:2025年11月2日
来源:Engineering Applications of Artificial Intelligence

编辑推荐:

本文提出引导相关性注意力映射(GRAM)框架,创新性地融合卷积神经网络(CNN)与视觉Transformer(ViT),通过注意力引导的相关性传播机制解决传统层间相关性传播(LRP)存在的噪声敏感性和上下文理解不足问题。实验表明GRAM在ImageNet数据集上实现70.67%的显著提升和7.59%的平均下降,为医疗影像等高风险领域的AI决策提供更可靠的可视化解释。

广告
   X   

亮点
• 提出引导相关性注意力映射(GRAM)框架,整合CNN局部特征提取与ViT全局上下文推理,实现细粒度解释
• 引入注意力引导的相关性传播机制,通过Transformer注意力图指导相关性重分配,增强鲁棒性
• 相比仅依赖CNN显著性图或Transformer注意力可视化,GRAM在统一管道中融合双范式
• 在ImageNet数据集实验中,GRAM实现70.67%可解释性提升和7.59%平均下降,超越现有XAI方法
文献综述
随着AI系统在敏感领域应用需求增长,层间相关性传播(LRP)已成为可解释人工智能(XAI)关键技术。例如Eitel等人将LRP与3D卷积神经网络结合应用于脑部异常检测,而GRAM框架通过引入视觉Transformer的注意力机制,显著提升了传统LRP在复杂医学影像分析中的解释可靠性。
数据集描述
我们使用ImageNet ILSVRC-2012数据集进行模型训练评估。该数据集包含超过120万训练图像和5万验证图像,涵盖1000个物体类别。这种大规模多样化数据集为深度学习模型提供了理想测试平台,其复杂性确保CNN骨干网络能学习到丰富的层次化特征表示。
定量评估
为评估GRAM框架性能,我们在ImageNet数据集上开展实验。CNN骨干网络从头训练达到78.3%的Top-1准确率,优于ResNet-152等基准模型。当引入ViT模块后,GRAM在可解释性指标上实现70.67%的显著提升,平均下降仅7.59%,证明其能有效平衡模型性能与解释透明度。
结论与未来方向
本研究提出的GRAM框架通过融合CNN局部特征提取和ViT全局依赖捕获能力,成功克服了传统归因方法的噪声敏感性和上下文感知不足缺陷。在ImageNet基准测试中的实验验证了该方法的有效性,为医疗诊断等高风险领域的可靠AI决策提供了新思路。未来工作将探索GRAM在三维医学影像和多模态数据中的扩展应用。

生物通微信公众号
微信
新浪微博


生物通 版权所有