一种用于识别前车变道动作的双流集成学习模型

时间：2026年1月18日

来源：Engineering Applications of Artificial Intelligence

编辑推荐：

长时序列预测在小型数据集上面临过拟合、模型层训练进度不一致及缺乏可解释性挑战。本文提出CIALLO框架，通过分解时间序列为可逆的趋势、波形和幅度三个组件，实现独立建模与训练，提升灵活性、可解释性和优化效率。实验表明，CIALLO在长时效预测和有限数据条件下性能优于或相当现有模型，消融实验验证模块化设计有效缓解训练不均衡问题，可视化分析揭示了各组件贡献及训练特性。

陈飞|程科|王世通|王远全

江苏科技大学计算机学院，中国江苏省镇江市丹徒区长辉路666号，212003

摘要

长期时间序列预测（LTSF）在小型数据集上面临重大挑战，这些问题包括过拟合、模型层间训练进展不一致以及缺乏可解释性。为了解决这些问题，我们提出了基于组件独立自适应学习和局部优化（CIALLO）的新型并行预测框架。该框架将时间序列分解为可逆的组成部分——趋势、波形和幅度——从而实现独立建模和有针对性的训练。模块化的优势包括：灵活的子模型选择、独立的预训练、更清晰的收敛性分析以及更高的训练效率。该方法通过分解和组件级优化来强调结构上的可解释性，而非事后处理。

在基准电力变压器温度（ETT）数据集和交通数据集上的实验表明，CIALLO的性能与最先进的模型相当或具有竞争力，尤其是在长期预测和数据量有限的情况下。对设计模块的消融实验显示，轻量级子模型和独立组件训练可以提高优化稳定性，而引导梯度对最终性能的影响最小。分解消融实验表明，去趋势处理是主要手段，而幅度调整仅在缩放可靠时才有益。对幅度调整的进一步分析显示，稳定的U形行为表明中等幅度调整能够提供最平衡的校正效果。同时分析了各组分的贡献以及早停策略的效果，发现不同组分的训练进展存在差异。训练时间分析也显示，与基线方法相比，CIALLO的整体收敛速度更快。此外，还对样本间的误差贡献、代表性预测案例以及设计子模型的参数进行了可视化和分析。

最后，总结了总体结果，并讨论了其对未来模型设计和可解释性的启示。

引言

时间序列分析是统计学和数据分析中的一个重要领域，在金融、气象学、经济学、工业生产等多个领域发挥着关键作用。长期时间序列预测（LTSF）是指基于过去观测数据预测未来值的任务。这一任务广泛应用于金融、能源、交通和医疗保健等多个领域，例如股票市场趋势预测、电力负荷预测、交通流量预测和疾病传播建模。

传统的统计模型因其简单性和可解释性而长期受到青睐。例如，自回归积分移动平均模型（ARIMA）（Kendall和Ord，1990年）利用自相关和偏相关；季节性ARIMA（SARIMA）（Box等人，1978年）通过加入季节性项来增强预测能力；自回归条件异方差模型（ARCH）（Engle，1982年）通过估计过去序列的方差来评估未来波动性的大小。作为统计方法，这些模型简单有效且易于解释。

随着计算能力的提升，越来越多的深度学习模型也开始应用于时间序列分析领域。从密集神经网络（DNN）开始，如DLinear（Zeng等人，2022年）、TimeMixer（Wang等人，2024b年）、循环神经网络（RNN）模型（如长短期记忆网络LSTM（Hochreiter和Schmidhuber，1997年）、门控循环单元GRU（Chung等人，2014年）和卷积神经网络（CNN）模型（如时间卷积网络TCN（Bai等人，2018年）等，基于Transformer的模型（如Informer（Zhou等人，2020年）、PatchTST（Nie等人，2022年）、iTransformer（Liu等人，2023年）、TimeMixer++（Wang等人，2024a年）等也逐渐兴起。这些模型通常具有复杂的结构和多层不同模块，这使得模型各部分之间的适配变得更加困难，同时也增加了解释难度（Ye等人，2017年；Zhou等人，2024年）。为了确保模型达到最佳状态，往往需要采用多种技巧。

专家混合模型（MoE）是一种广泛使用的方法，通过整合专门的专家模型来提升性能（Zeevi等人，1996年）。近年来，MoE模型在时间序列分析中受到关注。FreqMoE（Liu，2025年）将专家分配到不同频率分量；MoLE（Ni等人，2023年）结合了线性专家模型；Time-MoE（Shi等人，2024年）则在大型数据集上进行训练。这些方法展示了MoE在复杂时间序列任务中的有效性。

这些模块通常可以分为三种架构，如图1所示。第一种也是最常见的方法是直接使用Transformer或其他模块对输入序列进行编码，这通常会导致模型规模较大。第二种方法从PatchTST开始，通过分割输入序列来降低编码器的复杂性。第三种方法是SegRNN，它使用三个模块进一步减小模型规模。

最新模型面临的一个主要挑战是过拟合问题。时间序列数据往往难以收集，导致数据集规模较小。同时，模型规模的扩大加剧了过拟合问题，尤其是对于在有限数据上训练的大型模型。此外，研究表明神经网络层捕获不同频率成分和概念表示的速度各不相同（Selvaraju等人，2016年；Chattopadhyay等人，2017年），这导致各层之间的学习速度存在差异。在应用早停策略确定最优模型时，某些层可能已经过拟合，而其他层则仍未充分训练。此外，由于深度残差模型的序列结构，评估每层的训练进展仍然具有挑战性。

另一个关键问题是模型的可解释性。高度复杂的模型在其决策过程中往往缺乏透明度，这使得解释其行为变得困难。这在股票价格预测和天气预报等应用中尤为关键，因为可解释性对于建立信任和做出决策至关重要。

总结来说，我们发现了以下问题：

•
分割限制：尽管分割在时间序列分割中很常见，但其简单处理方式可能会妨碍模型捕捉长期依赖关系的能力。
•
训练进展不一致：在多层网络中，由于优化动态的不同，不同模块的训练进度可能不同。虽然整体模型可能达到全局最优，但某些子模块可能会过拟合，而其他模块则可能未充分训练。这种收敛不平衡会降低模型的性能和泛化能力。
•
缺乏可解释性：端到端训练使得评估单个模块的效果变得复杂，难以确定它们的有效性。

为了解决这些挑战，我们采用了一种完全可逆的组件分离方法，使每个组件能够独立训练。这种方法有助于缓解模型不同部分之间训练进展不一致的问题。此外，通过组件分离，我们可以清楚地了解每个组件对模型预测的贡献。鉴于深度学习可解释性的一个关键方面是修改反向传播方法以识别对结果影响最大的元素（Montavon等人，2015年；Bach等人，2015年；Chefer等人，2020年），我们还尝试了专门的梯度传播技术。这确保了即使在联合训练后，每个组件仍保持其可解释性。基于这些考虑，我们提出了CIALLO框架，该框架包括三个阶段：

•
组件独立：将输入序列分割成小块，并使用完全可逆的方法对每个块进行分解，以降低模型拟合难度并提高预测时的透明度。
•
自适应局部化：为每个组件分别设计模型并进行独立训练，以实现最优状态，从而进一步分析不同模型之间的优势。
•
全局学习：将每个组件的最优训练模型集成到主模型中进行整体微调，并使用引导梯度，以进一步提高模型性能、完成预测和评估。

方法论

在本节中，我们使用单个数据块来说明图3和图4所示的训练和推理流程。

实验

配置我们的实验在配备Nvidia 3090 GPU和Kaggle Tesla P100（16 GB）的系统上进行。环境包括Python 3.12和PyTorch 2.5.1版本，以及CUDA 12.4，这些提供了模型训练和评估所需的计算资源和框架。

数据集我们的方法旨在解决在小数据集上训练模型时遇到的挑战，因为样本数量有限容易导致过拟合问题。

结论与讨论

在这项工作中，我们提出了CIALLO，这是一种基于组件的建模框架，旨在解决神经网络长期时间序列预测中的两个关键问题。首先，我们解决了子模块间训练进展不一致的问题，这会削弱早停策略的有效性。通过将输入序列分解为趋势、波形和幅度三个独立组件并分别进行训练，CIALLO使各模块的优化计划保持一致，从而提高了模型性能。

CRediT作者贡献声明

陈飞：撰写初稿、可视化、验证、软件开发、方法论设计、数据分析、形式化分析、数据整理、审稿与编辑、概念构建、项目管理、资源协调、监督工作。程科：形式化分析、资金获取、方法论设计。王世通：方法论设计、资源协调。王远全：资源支持。

写作过程中生成式AI和AI辅助技术的声明

在准备本文档时，作者使用了ChatGPT（OpenAI）来提高文档的清晰度、语法和可读性。使用该工具后，作者根据需要对内容进行了审查和编辑，并对出版物的内容负全责。

资助

本工作部分得到了国家自然科学基金（项目编号62472142）、河北省自然科学基金的Jing-Jin-Ji项目（项目编号H2024202009）、天津市自然科学基金（项目编号24JCZXJC00080和24YFXTHZ00250）以及江苏省研究生研究与实践创新计划（项目编号KYCX25_4381）的支持。这些项目提供了学术和培训支持，但对研究结果没有产生直接影响。