在 Transformers 中使用对比搜索生成可媲美人类水平的文本🤗1. 引言 自然语言生成 (即文本生成) 是自然语言处理 (NLP) 的核心任务之一。本文将介绍神经网络文本生成领域当前最先进的解码方法 对比搜索 (Contrastive Search)。提出该方法...AI 技术文章# Transformers3年前04090
使用 🧨 Diffusers 通过 Dreambooth 技术来训练 Stable DiffusionDreamBooth 是一种使用专门的微调形式来训练 Stable Diffusion 的新概念技术。一些人用他仅仅使用很少的他们的照片训练出了一个很棒的照片,有一些人用他去尝试新的风格。🧨 Diff...AI 技术文章# Diffusers# Dreambooth# Stable Diffusion3年前05920
从 PyTorch DDP 到 Accelerate 到 Trainer,轻松掌握分布式训练概述 本教程假定你已经对于 PyToch 训练一个简单模型有一定的基础理解。本教程将展示使用 3 种封装层级不同的方法调用 DDP (DistributedDataParallel) 进程,在多个 G...AI 技术文章# Accelerate# PyTorch# Trainer3年前04060
优化故事- BLOOM 模型推理经过“九九八十一难”,大模型终于炼成。下一步就是架设服务,准备开门营业了。真这么简单?恐怕未必!行百里者半九十,推理优化又是新的雄关漫道。如何进行延迟优化?如何进行成本优化 (别忘了 OpenAI 8...AI 技术文章# BLOOM3年前04140
千亿参数开源大模型 BLOOM 背后的技术假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,“一朝看尽长安花”似乎近在眼前 …… 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM 的训练或许对你有帮助...AI 技术文章# BLOOM# LLM3年前04060
如何生成文本: 通过 Transformers 用不同的解码方法生成文本简介 近年来,随着以 OpenAI GPT2 模型 为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注。开放域中的条件语言生成效果令人...AI 技术文章# Transformers3年前04480
大规模 Transformer 模型 8 比特矩阵乘简介 – 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes引言 语言模型一直在变大。截至撰写本文时,PaLM 有 5400 亿参数,OPT、GPT-3 和 BLOOM 有大约 1760 亿参数,而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型...AI 技术文章# Accelerate# bitsandbytes# Transformers3年前04240
解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗近段时间,ChatGPT 横空出世并获得巨大成功,使得 RLHF、SFT、IFT、CoT 等这些晦涩的缩写开始出现在普罗大众的讨论中。这些晦涩的首字母缩略词究竟是什么意思?为什么它们如此重要?我们调查...AI 技术文章3年前04150
SetFit: 高效的无提示少样本学习与标准微调相比,SetFit 能更高效地利用训练样本,同时对噪声也更健壮。 如何处理少标签或无标签的训练数据是每个数据科学家的梦魇 😱。最近几年来,基于预训练语言模型的少样本 (few-shot) 学...AI 技术文章# Prompts# Transformers3年前04320