引导相关性注意力映射：重构可解释人工智能的新范式

时间：2025年11月2日

来源：Engineering Applications of Artificial Intelligence

编辑推荐：

本文提出引导相关性注意力映射（GRAM）框架，创新性地融合卷积神经网络（CNN）与视觉Transformer（ViT），通过注意力引导的相关性传播机制解决传统层间相关性传播（LRP）存在的噪声敏感性和上下文理解不足问题。实验表明GRAM在ImageNet数据集上实现70.67%的显著提升和7.59%的平均下降，为医疗影像等高风险领域的AI决策提供更可靠的可视化解释。

^亮点

• 提出引导相关性注意力映射（GRAM）框架，整合CNN局部特征提取与ViT全局上下文推理，实现细粒度解释

• 引入注意力引导的相关性传播机制，通过Transformer注意力图指导相关性重分配，增强鲁棒性

• 相比仅依赖CNN显著性图或Transformer注意力可视化，GRAM在统一管道中融合双范式

• 在ImageNet数据集实验中，GRAM实现70.67%可解释性提升和7.59%平均下降，超越现有XAI方法

^文献综述

随着AI系统在敏感领域应用需求增长，层间相关性传播（LRP）已成为可解释人工智能（XAI）关键技术。例如Eitel等人将LRP与3D卷积神经网络结合应用于脑部异常检测，而GRAM框架通过引入视觉Transformer的注意力机制，显著提升了传统LRP在复杂医学影像分析中的解释可靠性。

^{数据集描述}

我们使用ImageNet ILSVRC-2012数据集进行模型训练评估。该数据集包含超过120万训练图像和5万验证图像，涵盖1000个物体类别。这种大规模多样化数据集为深度学习模型提供了理想测试平台，其复杂性确保CNN骨干网络能学习到丰富的层次化特征表示。

^定量评估

为评估GRAM框架性能，我们在ImageNet数据集上开展实验。CNN骨干网络从头训练达到78.3%的Top-1准确率，优于ResNet-152等基准模型。当引入ViT模块后，GRAM在可解释性指标上实现70.67%的显著提升，平均下降仅7.59%，证明其能有效平衡模型性能与解释透明度。

^{结论与未来方向}

本研究提出的GRAM框架通过融合CNN局部特征提取和ViT全局依赖捕获能力，成功克服了传统归因方法的噪声敏感性和上下文感知不足缺陷。在ImageNet基准测试中的实验验证了该方法的有效性，为医疗诊断等高风险领域的可靠AI决策提供了新思路。未来工作将探索GRAM在三维医学影像和多模态数据中的扩展应用。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部