深入理解 BigBird 的块稀疏注意力4## 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...AI 技术文章# BERT# BigBird# Longformer2年前03860