让 LLM 来评判 | 选择 LLM 评估模型基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模...AI 技术文章# LLM# 评估模型11个月前01840
让 LLM 来评判 | 基础概念基础概念 这是 让 LLM 来评判 系列文章的第一篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是评估模...AI 技术文章# LLM11个月前01920
自动评估基准 | 一些评估测试集一些评估测试集 这是 自动评估基准 系列文章的第三篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 如果你感兴趣的任务已经得到充分研究,很可能评估数据集已经存在了。 ...AI 技术文章# 自动评估11个月前02200
基于开放模型的推理时计算缩放过去几年,大语言模型 (LLM) 的进程主要由训练时计算缩放主导。尽管这种范式已被证明非常有效,但预训练更大模型所需的资源变得异常昂贵,数十亿美元的集群已经出现。这一趋势引发了人们对其互补方法的浓厚兴...AI 技术文章12个月前02000
自动评估基准 | 技巧与提示技巧与提示 这是 自动评估基准 系列文章的第四篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 数据污染管理 通常我们会假设在互联网上公开可用的数据集是存在数据污染问...AI 技术文章# 自动评估12个月前01720
自动评估基准 | 设计你的自动评估任务设计你的自动评估任务 这是 自动评估基准 系列文章的第二篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 选择数据集 做评估时,你可以选择现有的数据集 (参考 一些评...AI 技术文章# 自动评估12个月前01900
自动评估基准 | 基础概念基础概念 这是 自动评估基准 系列文章的第一篇,敬请关注系列文章: 基础概念 设计你的自动评估任务 一些评估测试集 技巧与提示 注:本文内容与我写的 通用评估博客 存在部分重叠 什么是自动评估基准? ...AI 技术文章# 自动评估12个月前01770
人工评估 | 技巧与提示技巧与提示 这是 人工评估 系列文章的第三篇《技巧与提示》,全系列包括: 基础概念 人工标注员 技巧与提示 建议阅读本文之前先阅读 "Using human annotators"...AI 技术文章# 人工标注# 人工评估1年前01830
欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在...AI 技术文章# PaliGemma2# 视觉语言模型1年前01750
人工评估 | 人工标注员人工标注员 这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括: 基础概念 人工标注员 技巧与提示 推荐阅读 这篇综述 的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质...AI 技术文章# 人工标注# 标注1年前01520