基于Transformer的无采样SHAP可解释时间序列预测

时间:2026年5月29日
来源:Nature Communications

编辑推荐:

时间序列预测对各领域规划与决策至关重要,模型可解释性对于建立用户信任及满足透明度要求亦十分关键。研究人员提出SHAPformer——一种基于Transformer架构与Shapley Additive Explanations(SHAP)的精确、快速且可解释的

广告
   X   

时间序列预测对各领域规划与决策至关重要,模型可解释性对于建立用户信任及满足透明度要求亦十分关键。研究人员提出SHAPformer——一种基于Transformer架构与Shapley Additive Explanations(SHAP)的精确、快速且可解释的时间序列预测模型。SHAPformer利用注意力操控(attention manipulation)使模型基于特征子集进行预测,从而消除了传统SHAP算法所需的背景数据采样步骤。因此,该模型可在不到一秒内生成精确解释,相比PermutationSHAP实现50–1000倍的加速。在具有已知真实解释的合成数据上,SHAPformer生成的解释符合数据真实规律。应用于电力负荷数据与电价数据时,其在保持竞争性预测性能的同时提供了有意义的局部与全局洞察,包括识别过去目标变量为关键预测因子,以及检测出圣诞节期间不同的负荷预测行为。
一、研究背景与动机
时间序列预测在能源、交通、金融及医疗等领域具有重要地位,随着可再生能源并网比例提升,精确的电力负荷与电价预测对维持供需实时平衡愈发关键。现代预测日益依赖深度学习方法,特别是针对时序数据优化的Transformer架构,但其"黑箱"特性阻碍了用户对预测依据的理解。可解释人工智能(Explainable Artificial Intelligence, XAI)方法中,Shapley Additive Explanations(SHAP)因满足效率公理(efficiency property,特征贡献之和等于模型预测值)而被广泛用于能源领域。然而现有SHAP算法(KernelSHAP、PermutationSHAP、DeepSHAP、GradientSHAP等)均需通过从背景数据采样或设定基线值来模拟特征缺失,前者计算昂贵且可能产生分布外(off-manifold)的不真实输入,后者解释结果受基线选择影响且仅能给出相对于基线的贡献。针对Transformer特有的注意力权重解释法存在争议,而Temporal Fusion Transformer(TFT)虽内置特征选择层但不提供特征对预测方向性影响的量化信息。目前尚无高效方法能为时序Transformer计算无采样的精确SHAP值,这促使研究人员开展本研究。本文提出SHAPformer模型,发表于《Nature Communications》。
二、主要关键技术方法
研究人员构建SHAPformer——在标准Transformer基础上引入掩码特征注意力(masked feature attention)与掩码自注意力/交叉注意力机制。训练时对 exogenous特征组和过去负荷的各天以50%概率随机掩码(mask),使模型学会基于任意特征子集做预测。推理时通过注意力操控(attention manipulation,即将被掩掉特征的attention score设为−∞使其softmax后权重为零)精确阻断特定特征组信息流入后续层,无需采样即可评估所有2N个特征组(feature groups/coalitions)的模型输出,结合Owen值公式将分组SHAP值分解至各时间窗口。为降低枚举复杂度,将过去目标按日分窗(7窗×24小时)并与各外生变量独立分窗构成特征组。实验使用含已知真值解释的合成时序数据集(12万样本,含日/周/年季节性及外生协变量)、德国输电系统运营商TransnetBW 2015–2019年小时级电力负荷+ERA5气象数据、欧洲ENTSO-E德/卢竞价区日前电价+ERA5气象数据;对比基线含标准Transformer+各SHAP算法、Linear Regression、XGBoost、Temporal Fusion Transformer(TFT);评估指标含RMSE/MAE/MAPE及特征重要性误差(Feature Importance Error, FIE)、局部解释误差(Local Explanation Error, LEE)、解释耗时。
三、研究结果
Fast calculation of exact SHAP values while maintaining forecast quality(快速计算精确SHAP值且保持预测质量)
研究人员对比SHAPformer与各基线模型的预测精度与解释耗时。结果表明SHAPformer预测精度与标准Transformer相当(合成与负荷数据上仅约1% RMSE增幅,电价数据上甚至更优),显著优于Persistence baseline、Linear Regression与XGBoost。解释速度方面,SHAPformer在合成、负荷及电价数据上分别较PermutationSHAP快50倍以上及800–1000倍以上,单条解释耗时低于1秒;虽因训练时需遍历特征子集致训练时间较标准Transformer增加2–13倍,但对需大量解释的应用具合理性。WindowSHAP虽通过特征分组提速但仍需采样,SHAPformer额外通过注意力操控消除采样与重复评估从而实现亚秒级精确SHAP计算。TFT虽最快但仅输出特征重要度不含方向性SHAP贡献。
Successful validation of SHAPformer's explanations on synthetic data(在合成数据上成功验证SHAPformer解释)
在有已知真实SHAP解释的合成数据上,SHAPformer的全局特征重要度与真实值高度吻合(FIE仅1.64个百分点,约为次优WindowSHAP误差三分之一),局部解释误差亦为各SHAP算法中最低(低3–4倍),并能正确识别无关噪声特征贡献为零。特征依赖图(dependence plots)显示SHAPformer捕捉到过去负荷线性效应、时刻半正弦波效应、周末乘性收缩效应、假日缩减效应及温度/乘数交互作用,与数据生成过程的真实依赖基本一致(月份特征影响较小致幅度略低估)。PermutationSHAP与WindowSHAP在关键特征(过去负荷、时刻、星期几)上偏离真实值,TFT输出两组分别针对历史与未来输入的重要度且不匹配真实解释。
Insights into electrical load and electricity price forecasts(电力负荷与电价预测洞察)
在真实负荷数据上SHAPformer识别过去一周负荷为最重要预测因子,其次为星期几与时刻,月、温度、假日贡献次之,降水几乎无贡献;其依赖图呈现典型日负荷双峰、周末负荷降低、假日削减预测、冬季负荷高(12月因圣诞工业活动减少除外)、低温时温度推高负荷等符合领域知识的模式。局部解释能揭示圣诞期间不同起始日月份特征符号反转及假日效应差异。电价数据上除过去价格与时刻信号外,风速呈近似线性负依赖(可再生Must-run发电降低剩余负荷进而压低电价),时刻呈早晚峰值,非工作日与假日降低电价。相较之下PermutationSHAP/WindowSHAP低估过去负荷重要性,TFT无法提供方向性贡献信息。
四、讨论与结论
研究人员指出SHAPformer通过特征分组降低联盟数并结合注意力操控实现无采样精确SHAP计算,在合成数据上验证了解释 fidelity(忠实度)接近真实SHAP值。局限性在于:(1)掩码训练致训练时间延长;(2)SHAP值精确计算需枚举2N个特征组,特征组过多时指数爆炸,未来可用近似估计;(3)特征重要度跨训练轮次有少量波动(标准差1–2百分点);(4)实证仅限合成+负荷+电价三数据集;(5)合成数据真值基于SHAP作用于数据生成过程并假设模型完美拟合该过程及尊重特征依赖(如星期几可推断时刻)。研究人员认为SHAPformer兼具"忠于模型(true to the model)"与"忠于数据(true to the data)",因其无采样设计及掩码训练使模型对缺失特征鲁棒并能合理分配相关特征间贡献。SHAPformer已开源为Python软件包并可推广至其他需特征子集训练的模型(可用feature dropout替代attention manipulation)。结论为:SHAPformer是一种将Transformer强预测能力与基于Shapley值的精确高效可解释性相结合的时序预测方法,在保持竞争力的预测精度的同时以亚秒级速度生成忠实于数据与模型的SHAP解释,适用于需高频解释的关键基础设施预测场景。

生物通微信公众号
微信
新浪微博


生物通 版权所有