时间序列分析是统计学和数据分析中的一个重要领域,在金融、气象学、经济学、工业生产等多个领域发挥着关键作用。长期时间序列预测(LTSF)是指基于过去观测数据预测未来值的任务。这一任务广泛应用于金融、能源、交通和医疗保健等多个领域,例如股票市场趋势预测、电力负荷预测、交通流量预测和疾病传播建模。
传统的统计模型因其简单性和可解释性而长期受到青睐。例如,自回归积分移动平均模型(ARIMA)(Kendall和Ord,1990年)利用自相关和偏相关;季节性ARIMA(SARIMA)(Box等人,1978年)通过加入季节性项来增强预测能力;自回归条件异方差模型(ARCH)(Engle,1982年)通过估计过去序列的方差来评估未来波动性的大小。作为统计方法,这些模型简单有效且易于解释。
随着计算能力的提升,越来越多的深度学习模型也开始应用于时间序列分析领域。从密集神经网络(DNN)开始,如DLinear(Zeng等人,2022年)、TimeMixer(Wang等人,2024b年)、循环神经网络(RNN)模型(如长短期记忆网络LSTM(Hochreiter和Schmidhuber,1997年)、门控循环单元GRU(Chung等人,2014年)和卷积神经网络(CNN)模型(如时间卷积网络TCN(Bai等人,2018年)等,基于Transformer的模型(如Informer(Zhou等人,2020年)、PatchTST(Nie等人,2022年)、iTransformer(Liu等人,2023年)、TimeMixer++(Wang等人,2024a年)等也逐渐兴起。这些模型通常具有复杂的结构和多层不同模块,这使得模型各部分之间的适配变得更加困难,同时也增加了解释难度(Ye等人,2017年;Zhou等人,2024年)。为了确保模型达到最佳状态,往往需要采用多种技巧。
专家混合模型(MoE)是一种广泛使用的方法,通过整合专门的专家模型来提升性能(Zeevi等人,1996年)。近年来,MoE模型在时间序列分析中受到关注。FreqMoE(Liu,2025年)将专家分配到不同频率分量;MoLE(Ni等人,2023年)结合了线性专家模型;Time-MoE(Shi等人,2024年)则在大型数据集上进行训练。这些方法展示了MoE在复杂时间序列任务中的有效性。
这些模块通常可以分为三种架构,如图1所示。第一种也是最常见的方法是直接使用Transformer或其他模块对输入序列进行编码,这通常会导致模型规模较大。第二种方法从PatchTST开始,通过分割输入序列来降低编码器的复杂性。第三种方法是SegRNN,它使用三个模块进一步减小模型规模。
最新模型面临的一个主要挑战是过拟合问题。时间序列数据往往难以收集,导致数据集规模较小。同时,模型规模的扩大加剧了过拟合问题,尤其是对于在有限数据上训练的大型模型。此外,研究表明神经网络层捕获不同频率成分和概念表示的速度各不相同(Selvaraju等人,2016年;Chattopadhyay等人,2017年),这导致各层之间的学习速度存在差异。在应用早停策略确定最优模型时,某些层可能已经过拟合,而其他层则仍未充分训练。此外,由于深度残差模型的序列结构,评估每层的训练进展仍然具有挑战性。
另一个关键问题是模型的可解释性。高度复杂的模型在其决策过程中往往缺乏透明度,这使得解释其行为变得困难。这在股票价格预测和天气预报等应用中尤为关键,因为可解释性对于建立信任和做出决策至关重要。
总结来说,我们发现了以下问题:
- •
分割限制:尽管分割在时间序列分割中很常见,但其简单处理方式可能会妨碍模型捕捉长期依赖关系的能力。
- •
训练进展不一致:在多层网络中,由于优化动态的不同,不同模块的训练进度可能不同。虽然整体模型可能达到全局最优,但某些子模块可能会过拟合,而其他模块则可能未充分训练。这种收敛不平衡会降低模型的性能和泛化能力。
- •
缺乏可解释性:端到端训练使得评估单个模块的效果变得复杂,难以确定它们的有效性。
为了解决这些挑战,我们采用了一种完全可逆的组件分离方法,使每个组件能够独立训练。这种方法有助于缓解模型不同部分之间训练进展不一致的问题。此外,通过组件分离,我们可以清楚地了解每个组件对模型预测的贡献。鉴于深度学习可解释性的一个关键方面是修改反向传播方法以识别对结果影响最大的元素(Montavon等人,2015年;Bach等人,2015年;Chefer等人,2020年),我们还尝试了专门的梯度传播技术。这确保了即使在联合训练后,每个组件仍保持其可解释性。基于这些考虑,我们提出了CIALLO框架,该框架包括三个阶段:
- •
组件独立:将输入序列分割成小块,并使用完全可逆的方法对每个块进行分解,以降低模型拟合难度并提高预测时的透明度。
- •
自适应局部化:为每个组件分别设计模型并进行独立训练,以实现最优状态,从而进一步分析不同模型之间的优势。
- •
全局学习:将每个组件的最优训练模型集成到主模型中进行整体微调,并使用引导梯度,以进一步提高模型性能、完成预测和评估。