TIME-MOE: BILLION-SCALE TIME SERIES FOUNDATION MODELS WITH MIXTURE OF EXPERTS

type

status

date

summary

slug

研究背景

时间序列是许多实际应用中的关键数据形式，如能源、气候、金融等。传统模型多为任务特定，难以跨域泛化。现有大规模预训练模型在语言和视觉领域已取得成功，但时间序列基础模型规模较小且成本高，限制了模型能力和实际应用。故有必要设计一个可扩展、统一的架构，实现高精度、低成本、灵活的通用时间序列预测模型。

时间序列预测的深度学习在过去的几十年里取得了显著的进步。

然而，尽管在语言和视觉领域大规模预训练取得了成功，但预训练的时间序列模型仍然规模有限，运行成本高，阻碍了在现实应用中开发更大的预测模型。

核心贡献

提出了TIME-MOE，一种基于稀疏专家混合（a sparse mixture-of-experts, MoE）的可扩展时间序列预测基础模型架构。首次将时间序列基础模型扩展到24亿参数，不仅提升了预测精度，也在降低计算成本的同时超越了众多现有的模型。

采用稀疏激活机制，在预测任务中仅激活部分网络节点，这不仅确保了高预测精度，还显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。

团队引入了Time-300B预训练数据集，涵盖9个领域的超过3000亿时间点的大规模时间序列数据集，

在六个真实世界的基准测试中，TIME-MOE比其他具有相似激活参数数量的模型表现好，尤其是在zero-shot和in-distribution中，分别实现了平均20%和24%的预测误差减少。

大多数时间序列预测模型由密集层组成，这意味着每个输入时间序列令牌都需要使用所有模型参数进行计算。

❓

如何扩展时间序列基础模型以实现通用预测，同时平衡模型功能和计算开销，反映基础模型在其他领域的成功？

How to scale time series foundation models to achieve universal forecasting while balancing model capability and computational overhead, mirroring the success of foundation models in other domains?

我们的建议是建立在一个最低限度的设计，其中输入的时间序列是逐点标记和编码，然后由稀疏Transformer解码器处理，激活只有一小部分参数。

Our proposal is built on a minimalist design, where the input time series is point-wise tokenized and encoded before being processed by a sparse transformer decoder, activating only a small subset of parameters.

TIME-MOE在9个领域和超过3000亿个时间点的大规模时间序列数据上进行预训练，通过多任务学习进行优化，以在多个分辨率下进行预测。

Pre-trained on large-scale time series data across 9 domains and over 300 billion time points, TIME-MOE is optimized through multi-task learning to forecast at multiple resolutions.

在推理过程中，利用不同的预测头，实现不同尺度的预测，实现灵活的预测范围。

During inference, different forecasting heads are utilized to enable forecasts across diverse scales, enabling flexible forecast horizons.