SetFit: 高效的无提示少样本学习与标准微调相比,SetFit 能更高效地利用训练样本,同时对噪声也更健壮。 如何处理少标签或无标签的训练数据是每个数据科学家的梦魇 😱。最近几年来,基于预训练语言模型的少样本 (few-shot) 学...AI 技术文章# Prompts# Transformers3年前04320
大语言模型:新的摩尔定律?不久前,微软和 Nvidia 推出了 Megatron-Turing NLG 530B,一种基于 Transformer 的模型,被誉为是 “世界上最大且最强的生成语言模型”。 毫无疑问,此项成果对于...AI 技术文章# LLM2年前04320
推介 SafeCoder今天这篇推文,我们打算给自己打一波“广告”,向大家隆重介绍 SafeCoder—— 一款专为企业打造的代码助手解决方案。 SafeCoder 旨在成为你完全合规且自托管的结对编程工程师,从而释放企业的...AI 技术文章# SafeCoder2年前04310
一文带你入门图机器学习本文主要涉及图机器学习的基础知识。 我们首先学习什么是图,为什么使用图,以及如何最佳地表示图。然后,我们简要介绍大家如何在图数据上学习,从神经网络以前的方法 (同时我们会探索图特征) 到现在广为人知的...AI 技术文章# GNN# Machine Learning3年前04300
大语言模型快速推理:在 Habana Gaudi2 上推理 BLOOMZ本文将展示如何在 Habana® Gaudi®2 上使用 🤗 Optimum Habana。Optimum Habana 是 Gaudi2 和 🤗 Transformers 库之间的桥梁。本文设计并实...AI 技术文章# BLOOMZ# LLM3年前04290
长程 Transformer 模型Tay 等人的 Efficient Transformers taxonomy from Efficient Transformers: a Survey 论文 本文由 Teven Le Scao、P...AI 技术文章# Hugging Face# transformer2年前04270
使用 DeepSpeed 和 Accelerate 进行超快 BLOOM 模型推理本文展示了如何使用 1760 亿 (176B) 参数的 BLOOM 模型 生成文本时如何获得超快的词吞吐 (per token throughput)。 因为在使用 bf16 (bfloat16) 权...AI 技术文章# Accelerate# BLOOM# DeepSpeed2年前04270
使用 ChatGPT 启发游戏创意:基于 AI 5 天创建一个农场游戏,第 2 天欢迎使用 AI 进行游戏开发! 在本系列中,我们将使用各种 AI 工具,在 5 天内创建一个功能完备的农场游戏。到本系列结束时,你将了解到如何将多种 AI 工具整合到游戏开发流程中。本系列文章将向你展...AI 技术文章# Game2年前04240
大规模 Transformer 模型 8 比特矩阵乘简介 – 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes引言 语言模型一直在变大。截至撰写本文时,PaLM 有 5400 亿参数,OPT、GPT-3 和 BLOOM 有大约 1760 亿参数,而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型...AI 技术文章# Accelerate# bitsandbytes# Transformers3年前04240
句子嵌入: 交叉编码和重排序这个系列目的是揭开嵌入的神秘面纱,并展示如何在你的项目中使用它们。第一篇博客 介绍了如何使用和扩展开源嵌入模型,选择现有的模型,当前的评价方法,以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解...AI 技术文章# Bi-encoder# Cross Encoder# LLM2年前04210