type
status
date
summary
slug
tags
category
icon
password

研究背景

时间序列是许多实际应用中的关键数据形式,如能源、气候、金融等。传统模型多为任务特定,难以跨域泛化。现有大规模预训练模型在语言和视觉领域已取得成功,但时间序列基础模型规模较小且成本高,限制了模型能力和实际应用。故有必要设计一个可扩展、统一的架构,实现高精度、低成本、灵活的通用时间序列预测模型。
  • 时间序列预测的深度学习在过去的几十年里取得了显著的进步。
  • 然而,尽管在语言和视觉领域大规模预训练取得了成功,但预训练的时间序列模型仍然规模有限,运行成本高,阻碍了在现实应用中开发更大的预测模型。

核心贡献

  1. 提出了TIME-MOE,一种基于稀疏专家混合(a sparse mixture-of-experts, MoE)的可扩展时间序列预测基础模型架构。首次将时间序列基础模型扩展到24亿参数,不仅提升了预测精度,也在降低计算成本的同时超越了众多现有的模型。
    1. 采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。
  1. 团队引入了Time-300B预训练数据集,涵盖9个领域的超过3000亿时间点的大规模时间序列数据集,
  1. 在六个真实世界的基准测试中,TIME-MOE比其他具有相似激活参数数量的模型表现好,尤其是在zero-shot和in-distribution中,分别实现了平均20%和24%的预测误差减少。
notion image
 
 
大多数时间序列预测模型由密集层组成,这意味着每个输入时间序列令牌都需要使用所有模型参数进行计算。
 
 
如何扩展时间序列基础模型以实现通用预测,同时平衡模型功能和计算开销,反映基础模型在其他领域的成功?
How to scale time series foundation models to achieve universal forecasting while balancing model capability and computational overhead, mirroring the success of foundation models in other domains?
我们的建议是建立在一个最低限度的设计,其中输入的时间序列是逐点标记和编码,然后由稀疏Transformer解码器处理,激活只有一小部分参数。
Our proposal is built on a minimalist design, where the input time series is point-wise tokenized and encoded before being processed by a sparse transformer decoder, activating only a small subset of parameters.
TIME-MOE在9个领域和超过3000亿个时间点的大规模时间序列数据上进行预训练,通过多任务学习进行优化,以在多个分辨率下进行预测。
Pre-trained on large-scale time series data across 9 domains and over 300 billion time points, TIME-MOE is optimized through multi-task learning to forecast at multiple resolutions.
在推理过程中,利用不同的预测头,实现不同尺度的预测,实现灵活的预测范围。
During inference, different forecasting heads are utilized to enable forecasts across diverse scales, enabling flexible forecast horizons.
 
 

模型框架

notion image
 
① 我们首先将其tokenize为一个数据点序列(a sequence of data points)
② 对其进行编码,这些tokens通过N-stacked backbone layers,这个layer由因果多头自注意力和
③ 稀疏时间混合专家层组成。
④ 在训练期间,我们在多个分辨率下优化预测头, 对于模型的推理演绎,采用以下方式提供灵活长度的预测:
⑤ 动态的scheduling(调度)这些heads

input token embdding输入层

给定一个任意长度的输入时间序列,我们在输入层将其tokenize为一个数据点序列(a sequence of data points)
输入时间序列首先进行逐点分词和SwiGLU映射
notion image

MoE transformer block(块)

由循环堆叠的自回归时序Transformer层组成,每层包含因果多头自注意力和稀疏混合专家子层:
notion image
这里,SA表示因果掩码多头自注意力
混合专家层通过路由器选择若干专家进行计算,并包含一个共享专家,用公式表示为:
FFN_{N+1}表示共享专家,其他FFN_{N}到FFN_{1}表示独立专家
仅保留独立专家中的前k个最大分数,并将其余分数置为0
notion image

multi-resolution parameters 多分辨率输出

引入一种新的多分辨率预测头,允许同时在多个尺度上进行预测。
通过多组单层FFN输出,根据不同预测长度分别计算损失,训练时再聚合不同范围的预测误差计算复合损失,来提高模型的泛化能力。
采用简单贪心调度算法,在推理阶段灵活组合不同尺度的预测头,实现任意预测长度,提升鲁棒性与效率。
定义P个输出投影,每个输出投影对应于一个不同的个预测范围
notion image

损失函数

使用Huber损失
notion image
采用了辅助损失(auxiliary loss)来平衡专家负载,惩罚给分高的专家
notion image
最终损失
最终损失
其中P表示多分辨率投影的数量,是第j个投影的长度horizon
 

实验效果

1. 零样本(zero-shot)预测

零样本预测能有效检验时序基础模型的泛化能力和通用性。实验表明,与现有的时序基础模型相比,Time-MoE达到了最好的预测效果,均方误差(MSE)降低了约20%。
notion image

2. 全样本full-shot预测

在全样本预测中,预训练的Time-MoE会使用相应数据的训练集进行微调。实验表明,与专门为全样本预测设计的时序模型相比,Time-MoE依然能达到最优的效果, MSE降低了约24%。这体现了模型对于不同领域数据的适用性,以及预训练基础模型对于下游任务帮助的有效性。
notion image

3. 消融实验

文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明,Time-MoE的设计在提升模型精度上是有效的。特别地,在不使用混合专家(mixture-of-experts)的情况下,模型的MSE会有明显的退化。
 
解除网页文本禁止复制粘贴限制集成学习 Esemble Learning
Loading...
Rainnn
Rainnn
bling bling ⭐
Latest posts
TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS
2025-7-6
(零基础)pycharm+服务器+anaconda虚拟环境|配置深度学习环境
2025-7-6
DIVE INTO DEEP LEARNING
2025-7-6
已解决| win11文件夹黑屏闪退
2025-7-6
从基于博弈树与α-β剪枝到使用自对弈强化学习训练的Gobang AI
2025-7-6
使用Hexo+Github搭建个人博客
2025-7-6
Announcement
wakuwaku!
你竟然发现了这里!!
创作不易,获取加🔒文章密码/试读文章,请微信关注公众号 Code & Cookies
notion image