在许多现实世界的应用中,表格数据集并不是静态的,而是会随时间演变,这违反了独立同分布(i.i.d.)样本的常见假设。相反,数据生成过程通常是逐渐或突然变化的,导致时间变化,包括输入特征的边际分布、输入与输出之间的条件关系,甚至标签分布随时间的变化(参见Bayram等人(2022a);Guo等人(2021);Read和Indrė(2025);Soares和Minku(2025)的研究)。这种变化在金融、制造、电子商务、交通和医疗保健等领域非常普遍,因为这些领域的数据收集周期较长。实证研究表明,即使对于在静态基准测试下具有强泛化能力的方法,时间变化也会导致模型性能严重下降(参见Gardner等人(2023);Rubachev等人(2024)),这对在实际系统中可靠地长期部署表格模型构成了重大障碍。
与此同时,表格学习领域近年来取得了快速进展,出现了新的架构和评估框架,重新审视了深度学习与梯度提升决策树的优点,并探索了预训练或基础模型范式。代表性发展包括最近邻增强的深度模型(如TabR,Gorishniy等人(2024b))、参数高效的集成MLP(如TabM,Gorishniy等人(2024a))、高维低样本量方法(如PLATO,Ruiz等人(2023))、基于Transformer的特征加权方法(如Zhang等人(2024))、TabularBench鲁棒性基准(Simonetto等人(2024)以及TabPFN表格基础模型(Hollmann等人(2025)),还有关于表格数据深度和表示学习的最新研究(Jiang等人(2025))。这些发展突显了表格深度学习日益重要的地位,以及在这一演变趋势中明确处理时间变化的必要性。
在现有的缓解时间变化的方法中,将时间信息编码到模型框架中的方法与本文最为相关。这些技术通过傅里叶风格的时间戳扩展、季节性趋势分解、位置或频域编码,或时间感知的多视图融合(Cai和Ye(2025b);Li等人(2025);Liu等人(2024);Pelicani和Ceci(2025);Zhang等人(2023);Zhu等人(2024))来整合时间信息。这些技术揭示了表格流中的周期性或趋势模式,并成为实证研究的主要基准。其他相关努力包括通过将不同的时间段视为不同的领域来扩展领域泛化(Cai等人(2024);Jin等人(2024);Xu等人(2024),以及在模型推理期间使用未标记的目标数据进行测试时适应(Du等人(2025);Wang等人(2025);Yang等人(2024);Zhou等人(2025)),以及采用轻量级的最后一层更新作为实际选项(Kirichenko等人(2023);Le等人(2023))。在这些研究方向中,时间线索通常被作为固定辅助变量使用,或者仅用于事后适应,而跨多个时间分辨率的模式组织和协调仍然很大程度上未被探索。
对多样化表格基准测试中时间变化的仔细研究表明,核心挑战在于处理在多个相互作用的时间范围内展开的变化(Cai和Ye(2025b);Gardner等人(2023);Rubachev等人(2024)),这些变化从突然的峰值到逐渐的漂移、季节性振荡和长期趋势都有(见图1)。从概念层面来看,神经科学关于时间整合的见解为在演变环境中对多个时间粒度进行建模和自适应信息路由提供了补充动机(Miller和Constantinidis(2024))。这些观察指出了该研究领域的两个明显缺口:(1)缺乏一种原理性的多时间尺度时间抽象方法,能够分离和参数化相关性、季节性和长期结构;(2)缺乏一种能够跨时间分辨率路由重点并整合隐式上下文以抑制瞬态波动的控制机制。
为了解决这些缺口,本文提出了TARS(基于路由尺度的时间抽象),这是一种用于表格学习的新型即插即用方法,能够根据时间变化自适应地组织和整合时间表示。TARS包括四个相互作用的模块:(1)一个显式的时间编码器,将时间戳分解为短期相关性、中期周期性和长期上下文嵌入;(2)一个隐式的漂移编码器,跟踪对齐分辨率下的分布统计信息和高阶矩;(3)一个感知漂移的适应路由模块,根据检测到的漂移信号动态调整时间路径的权重;(4)一个特征-时间融合层,将具有上下文感知的时间偏差注入特征空间。在TabReD的八个真实世界数据集上的广泛实验表明,TARS在各种模型框架上的表现始终优于现有技术,平均相对提升达到了2.17%。消融研究进一步证实了每个模块在处理时间变化方面的积极作用,特别是在混合或长期漂移的情景中。
本文的其余部分安排如下:第2节回顾了关于时间变化下表格数据学习的相关文献。第3节详细介绍了提出的TARS方法及其四个主要模块。第4节介绍了实验设置、数据集、基线和比较结果,随后是深入分析和消融研究。最后,第5节总结了本文并讨论了未来的研究方向。