让 LLM 来评判 | 设计你自己的评估 prompt设计你自己的评估 prompt 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技...AI 技术文章# LLM# prompt10个月前01370
让 LLM 来评判 | 奖励模型相关内容奖励模型相关内容 这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么...AI 技术文章# LLM10个月前01250
让 LLM 来评判 | 评估你的评估结果评估你的评估结果 这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 在生...AI 技术文章# LLM10个月前01200
让 LLM 来评判 | 技巧与提示这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 LLM 评估模型已知偏...AI 技术文章# LLM8个月前0880
大模型评估排障指南 | 关于 LaTeX 公式解析这是 大模型评估排障指南 系列文章的第二篇,敬请关注系列文章: 关于推理 关于 $\LaTeX$ 公式解析 关于可复现性 解析 LaTeX 很难。这个问题在评估输出为 $\LaTeX$ 的模型时经常会...AI 技术文章# LaTex公式# LLM# 大模型7个月前0390
大模型评估排障指南 | 关于可复现性这是 大模型评估排障指南 系列文章的第三篇,敬请关注系列文章: 关于推理 关于 $\LaTeX$ 公式解析 关于可复现性 假设你读了一篇最近的新模型技术报告,然后心血来潮想要在本机复现他们的结果,却发...AI 技术文章# LLM# 大模型7个月前0300