使用 Hugging Face 微调 Gemma 模型我们最近宣布了,来自 Google Deepmind 开放权重的语言模型 Gemma现已通过 Hugging Face 面向更广泛的开源社区开放。该模型提供了两个规模的版本:20 亿和 70 亿参数...AI 技术文章# Cloud TPU# Colab# DeepMind2年前05570
背景 | 基于 Transformers 的编码器 – 解码器模型!pip install transformers==4.2.1 !pip install sentencepiece==0.1.95 Vaswani 等人在其名作 Attention is all ...AI 技术文章# Hugging Face# Transformers3年前05340
解码器 | 基于 Transformers 的编码器-解码器模型基于 transformer 的编码器-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由 Sebastion...AI 技术文章# Transformers3年前05260
Hugging Face 音频 AI 派对直播回放(上)为了庆祝 Hugging Face 新开设的免费开源 Audio Transformers 课程的启动,我们组织了一场不容错过的网络直播活动!这是直播回放的第一部分,错过直播的 宝子们别错过回放噢~AI 技术文章AI 视频教程# Audio# Transformers2年前04970
编码器 – 解码器 | 基于 Transformers 的编码器 – 解码器模型基于 transformer 的编码器-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由 Sebastion...AI 技术文章# Hugging Face# Transformers3年前04970
RWKV – transformer 与 RNN 的强强联合在 NLP (Natural Language Processing, 自然语言处理) 领域,ChatGPT 和其他的聊天机器人应用引起了极大的关注。每个社区为构建自己的应用,也都在持续地寻求强大、可...AI 技术文章# Hugging Face# RNN# Transformers3年前04970
使用英特尔 Sapphire Rapids 加速 PyTorch Transformers 模型(第一部分)大约一年以前,我们 展示[1] 了如何在第三代 英特尔至强可扩展[2] CPU (即 Ice Lake) 集群上分布式训练 Hugging Face transformers 模型。最近,英特尔发布了...AI 技术文章# PyTorch# Sapphire Rapids# Transformers3年前04940
辅助生成:低延迟文本生成的新方向大型语言模型如今风靡一时,许多公司投入大量资源来扩展它们规模并解锁新功能。然而,作为注意力持续时间不断缩短的人类,我们并不喜欢大模型缓慢的响应时间。由于延迟对于良好的用户体验至关重要,人们通常使用较小...AI 技术文章# GPT# Hugging Face# Transformers2年前04790
使用 Megatron-LM 训练语言模型在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上,并使用许多优化技术以实现稳定高效的训练。Hugging Face 🤗 Accelerate 的创...AI 技术文章# LLM# PyTorch# Transformers2年前04790
使用 Transformers 进行图分类在之前的 博文 中,我们探讨了图机器学习的一些理论知识。这一篇我们将探索如何使用 Transformers 库进行图分类。(你也可以从 此处 下载演示 notebook,跟着一起做!) 目前,Tran...AI 技术文章# Transformers3年前04520