标签:RoBERTa

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

引言 自然语言处理 (NLP) 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合...

深入理解 BigBird 的块稀疏注意力

4## 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...