使用 Informer 进行多元概率时间序列预测介绍 几个月前,我们介绍了 Time Series Transformer,它是 Vanilla Transformer (Vaswani et al., 2017) 应用于预测的模型,并展示了单变量...AI 技术文章# Informer# Longformer# transformer2年前05310
深入理解 BigBird 的块稀疏注意力4## 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...AI 技术文章# BERT# BigBird# Longformer2年前03860