AI 技术文章 | 第20页 | AIHunt | 几百个AI工具导航，国内外AI工具导航大全

AI 教程 AI 新闻资讯 AI 技术周刊 AI 活动竞赛 AI 模型排行榜

AI 绘画教程 AI 技术文章 AI 视频教程

排序

发布更新浏览点赞

Google Colab 现已支持直接使用 🤗 transformers 库

Google Colab，全称 Colaboratory，是 Google Research 团队开发的一款产品。在 Colab 中，任何人都可以通过浏览器编写和执行任意 Python 代码。它尤其适...

2年前

03890

深入理解 BigBird 的块稀疏注意力

4## 引言基于 transformer 的模型已被证明对很多 NLP 任务都非常有用。然而，$$O(n^2)$$ 的时间和内存复杂度 (其中 $$n$$ 是序列长度) 使得在长序列 ($n >...

AI 技术文章 # BERT # BigBird # Longformer

2年前

03870

使用 LCM LoRA 4 步完成 SDXL 推理

LCM 模型通过将原始模型蒸馏为另一个需要更少步数 (4 到 8 步，而不是原来的 25 到 50 步) 的版本以减少用 Stable Diffusion (或 SDXL) 生成图像所需的步数。蒸馏...

AI 技术文章 # LCM # LoRA # SDXL

2年前

04420

使用 PPO 算法进行 RLHF 的 N 步实现细节

当下，RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究，这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库，其仓库位置位于 o...

AI 技术文章 # PPO # PPO算法 # RLHF

2年前

03670

个人编程助手: 训练你自己的编码助手

在编程和软件开发这个不断演变的领域中，对效率和生产力的追求催生了许多卓越的创新。其中一个显著的创新就是代码生成模型的出现，如 Codex、StarCoder 和 Code Llama。这些模型在生成类...

AI 技术文章 # Code Llama # Codex # StarCoder

2年前

03740

🤗 Transformers 中原生支持的量化方案概述

本文旨在对 transformers 支持的各种量化方案及其优缺点作一个清晰的概述，以助于读者进行方案选择。目前，量化模型有两个主要的用途: 在较小的设备上进行大模型推理对量化模型进行适配器微调 ...

AI 技术文章 # Transformers # 量化

2年前

03610

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

众所周知，LLM 规模庞大，如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文展示了我们是如何将 LLM.int8 论文中的技术通过 bitsand...

AI 技术文章 # 4 比特 # 4 比特量化 # bitsandbytes

2年前

03470

长程 Transformer 模型

Tay 等人的 Efficient Transformers taxonomy from Efficient Transformers: a Survey 论文本文由 Teven Le Scao、P...

AI 技术文章 # Hugging Face # transformer

2年前

04270

使用 DDPO 在 TRL 中微调 Stable Diffusion 模型

引言扩散模型 (如 DALL-E 2、Stable Diffusion) 是一类文生图模型，在生成图像 (尤其是有照片级真实感的图像) 方面取得了广泛成功。然而，这些模型生成的图像可能并不总是符合人...

AI 技术文章 # DDPO # Stable Diffusion # TRL

2年前

03720

面向生产的 LLM 优化

注意 : _本文同时也是 Transformers 的文档。_ 以 GPT3/4、Falcon 以及 LLama 为代表的大语言模型 (Large Language Model，LLM) 在处理以人为...

AI 技术文章 # Falcon # GPT3 # GPT3/4

2年前

03630

加载更多