type
status
date
summary
slug
tags
category
icon
password
研究背景
时间序列是许多实际应用中的关键数据形式,如能源、气候、金融等。传统模型多为任务特定,难以跨域泛化。现有大规模预训练模型在语言和视觉领域已取得成功,但时间序列基础模型规模较小且成本高,限制了模型能力和实际应用。故有必要设计一个可扩展、统一的架构,实现高精度、低成本、灵活的通用时间序列预测模型。
- 时间序列预测的深度学习在过去的几十年里取得了显著的进步。
- 然而,尽管在语言和视觉领域大规模预训练取得了成功,但预训练的时间序列模型仍然规模有限,运行成本高,阻碍了在现实应用中开发更大的预测模型。
核心贡献
- 提出了TIME-MOE,一种基于稀疏专家混合(a sparse mixture-of-experts, MoE)的可扩展时间序列预测基础模型架构。首次将时间序列基础模型扩展到24亿参数,不仅提升了预测精度,也在降低计算成本的同时超越了众多现有的模型。
采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。
- 团队引入了Time-300B预训练数据集,涵盖9个领域的超过3000亿时间点的大规模时间序列数据集,
- 在六个真实世界的基准测试中,TIME-MOE比其他具有相似激活参数数量的模型表现好,尤其是在zero-shot和in-distribution中,分别实现了平均20%和24%的预测误差减少。

大多数时间序列预测模型由密集层组成,这意味着每个输入时间序列令牌都需要使用所有模型参数进行计算。
如何扩展时间序列基础模型以实现通用预测,同时平衡模型功能和计算开销,反映基础模型在其他领域的成功?
How to scale time series foundation models to achieve universal forecasting while balancing model capability and computational overhead, mirroring the success of foundation models in other domains?
我们的建议是建立在一个最低限度的设计,其中输入的时间序列是逐点标记和编码,然后由稀疏Transformer解码器处理,激活只有一小部分参数。
Our proposal is built on a minimalist design, where the input time series is point-wise tokenized and encoded before being processed by a sparse transformer decoder, activating only a small subset of parameters.
TIME-MOE在9个领域和超过3000亿个时间点的大规模时间序列数据上进行预训练,通过多任务学习进行优化,以在多个分辨率下进行预测。
Pre-trained on large-scale time series data across 9 domains and over 300 billion time points, TIME-MOE is optimized through multi-task learning to forecast at multiple resolutions.
在推理过程中,利用不同的预测头,实现不同尺度的预测,实现灵活的预测范围。
During inference, different forecasting heads are utilized to enable forecasts across diverse scales, enabling flexible forecast horizons.
模型框架

① 我们首先将其tokenize为一个数据点序列(a sequence of data points)
② 对其进行编码,这些tokens通过N-stacked backbone layers,这个layer由因果多头自注意力和
③ 稀疏时间混合专家层组成。
④ 在训练期间,我们在多个分辨率下优化预测头, 对于模型的推理演绎,采用以下方式提供灵活长度的预测:
⑤ 动态的scheduling(调度)这些heads
input token embdding输入层
给定一个任意长度的输入时间序列,我们在输入层将其tokenize为一个数据点序列(a sequence of data points)
输入时间序列首先进行逐点分词和SwiGLU映射

MoE transformer block(块)
由循环堆叠的自回归时序Transformer层组成,每层包含因果多头自注意力和稀疏混合专家子层:

这里,SA表示因果掩码多头自注意力
混合专家层通过路由器选择若干专家进行计算,并包含一个共享专家,用公式表示为:
FFN_{N+1}表示共享专家,其他FFN_{N}到FFN_{1}表示独立专家
仅保留独立专家中的前k个最大分数,并将其余分数置为0

multi-resolution parameters 多分辨率输出
引入一种新的多分辨率预测头,允许同时在多个尺度上进行预测。
通过多组单层FFN输出,根据不同预测长度分别计算损失,训练时再聚合不同范围的预测误差计算复合损失,来提高模型的泛化能力。
采用简单贪心调度算法,在推理阶段灵活组合不同尺度的预测头,实现任意预测长度,提升鲁棒性与效率。
定义P个输出投影,每个输出投影对应于一个不同的个预测范围

损失函数
使用Huber损失

采用了辅助损失(auxiliary loss)来平衡专家负载,惩罚给分高的专家


其中P表示多分辨率投影的数量,是第j个投影的长度horizon
实验效果
1. 零样本(zero-shot)预测
零样本预测能有效检验时序基础模型的泛化能力和通用性。实验表明,与现有的时序基础模型相比,Time-MoE达到了最好的预测效果,均方误差(MSE)降低了约20%。

2. 全样本full-shot预测
在全样本预测中,预训练的Time-MoE会使用相应数据的训练集进行微调。实验表明,与专门为全样本预测设计的时序模型相比,Time-MoE依然能达到最优的效果, MSE降低了约24%。这体现了模型对于不同领域数据的适用性,以及预训练基础模型对于下游任务帮助的有效性。

3. 消融实验
文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明,Time-MoE的设计在提升模型精度上是有效的。特别地,在不使用混合专家(mixture-of-experts)的情况下,模型的MSE会有明显的退化。
- Author:Rainnn
- URL:https://blog.rainnn.top//article/228eefba-b209-80eb-98e2-e9bf177050d2
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts