LayerSkip: 使用自推测解码加速大模型推理自推测解码是一种新颖的文本生成方法,它结合了推测解码 (Speculative Decoding) 的优势和大语言模型 (LLM) 的提前退出 (Early Exit) 机制。该方法出自论文 Laye...AI 技术文章# LaySkip# 大模型推理# 解码9个月前01270