BigCodeBench

共 1 篇文章

排序

发布更新浏览点赞

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

HumanEval 是一个用于评估大型语言模型 (LLM) 在代码生成任务中的参考基准，因为它使得对紧凑的函数级代码片段的评估变得容易。然而，关于其在评估 LLM 编程能力方面的有效性越来越多的担忧...

AI 技术文章 # BigCodeBench # HumanEval

1年前

02610