BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准,因为它使得对紧凑的函数级代码片段的评估变得容易。然而,关于其在评估 LLM 编程能力方面的有效性越来越多的担忧...AI 技术文章# BigCodeBench# HumanEval1年前02610
Google 发布最新开放大语言模型 Gemma 2,现已登陆 Hugging Face HubGoogle 发布了最新的开放大语言模型 Gemma 2,我们非常高兴与 Google 合作,确保其在 Hugging Face 生态系统中的最佳集成。你可以在 Hub 上找到 4 个开源模型(2 个...AI 技术文章# Gemma 21年前02520
Hugging Face Accelerate 两个后端的故事:FSDP 与 DeepSpeed社区中有两个流行的 零冗余优化器(Zero Redundancy Optimizer,ZeRO) 算法实现,一个来自 DeepSpeed,另一个来自 PyTorch。Hugging Face Acce...AI 技术文章# DeepSpeed# FDSP1年前02750
更难、更好、更快、更强:LLM Leaderboard v2 现已发布摘要 评估和比较大语言模型 (LLMs) 是一项艰巨的任务。我们 RLHF 团队在一年前就意识到了这一点,当时他们试图复现和比较多个已发布模型的结果。这几乎是不可能完成的任务:论文或营销发布中的得分缺...AI 技术文章# Leaderboard# LLM1年前04080
英特尔 Gaudi 加速辅助生成随着模型规模的增长,生成式人工智能的实现需要大量的推理资源。这不仅增加了每次生成的成本,而且还增加了用于满足此类请求的功耗。因此,文本生成的推理优化对于降低延迟、基础设施成本以及功耗都至关重要,其可以...AI 技术文章# Gaudi# 辅助生成1年前02360
TGI 基准测试本文主要探讨 TGI 的小兄弟 - TGI 基准测试工具。它能帮助我们超越简单的吞吐量指标,对 TGI 进行更全面的性能剖析,以更好地了解如何根据实际需求对服务进行调优并按需作出最佳的权衡及决策。如果...AI 技术文章# 基准测试# 文本生成1年前02640
全新推出 PaliGemma、Gemma 2 和升级扩展 Responsible AI 工具包作者 / 产品管理总监 Tris Warkentin;高级研究员翟晓华;产品经理 Ludovic Peran 在 Google,我们相信合作和开放研究能够推动创新。我们非常感谢社区对 Gemma 的支...AI 技术文章# Gemma 2# PaliGemma# Responsible AI2年前02660
将强化学习重新引入 RLHF我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法,RLOO 是一种新的在线 RLHF 训练算法,旨在使其更易于访问和实施...AI 技术文章# RLHF# 强化学习2年前02480
欢迎 Stable Diffusion 3 加入 🧨 Diffusers作为 Stability AI 的 Stable Diffusion 家族最新的模型,Stable Diffusion 3 (SD3) 现已登陆 Hugging Face Hub,并且可用在 🧨 Di...AI 技术文章# Diffusers# Stable Diffusion2年前02690
用 KV 缓存量化解锁长文本生成很高兴和大家分享 Hugging Face 的一项新功能: KV 缓存量化 ,它能够把你的语言模型的速度提升到一个新水平。 太长不看版: KV 缓存量化可在最小化对生成质量的影响的条件下,减少 LLM...AI 技术文章# KV缓存# 量化2年前02870