在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现引言 自然语言处理 (NLP) 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合的模型。本文主要比较 3 个模型: RoBER...AI 技术文章# Llama 2# LoRA# Mistral2年前03610
深入理解 BigBird 的块稀疏注意力4## 引言 基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而,$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...AI 技术文章# BERT# BigBird# Longformer2年前03860