AIHunt | 几百个AI工具导航,国内外AI工具导航大全
  • 首页
  • AI 新闻
  • AI 教程
    • AI 技术文章
    • AI 视频教程
    • AI 绘画教程
      • Stable Diffusion 教程
  • AI 周刊
  • AI 书籍
    • 大语言模型
    • 深度学习
  • AI 账号
  • AI 活动竞赛
  • 开源大语言模型
    • 开源大模型
    • 大模型代码
    • 预训练
    • 指令调优
    • 对齐调优
    • 模型评测
  • 提交AI工具

      RLHF

      共 5 篇文章
      排序
      发布更新浏览点赞
      将强化学习重新引入 RLHF

      将强化学习重新引入 RLHF

      我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为一种替代 PPO 的方法,RLOO 是一种新的在线 RLHF 训练算法,旨在使其更易于访问和实施...
      AI 技术文章# RLHF# 强化学习
      2年前
      02480
      使用 PPO 算法进行 RLHF 的 N 步实现细节

      使用 PPO 算法进行 RLHF 的 N 步实现细节

      当下,RLHF/ChatGPT 已经变成了一个非常流行的话题。我们正在致力于更多有关 RLHF 的研究,这篇博客尝试复现 OpenAI 在 2019 年开源的原始 RLHF 代码库,其仓库位置位于 o...
      AI 技术文章# PPO# PPO算法# RLHF
      2年前
      03690
      “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程

      “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程

      如 ChatGPT,GPT-4,Claude语言模型 之强大,因为它们采用了 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF...
      AI 技术文章# LLaMA# RLHF# StackLLaMA
      2年前
      03960
      在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

      在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

      我们很高兴正式发布 trl 与 peft 的集成,使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调!在这篇文章中,我们解释了为什么这是现有微调方法的有竞争力的替代方案。 请注意, ...
      AI 技术文章# LLM# RLHF
      3年前
      04420
      ChatGPT 背后的「功臣」——RLHF 技术详解

      ChatGPT 背后的「功臣」——RLHF 技术详解

      OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮,它面对多种多样的问题对答如流,似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Mode...
      AI 技术文章# ChatGPT# RLHF
      3年前
      04080
      没有了
      AIHunt | 几百个AI工具导航,国内外AI工具导航大全
      收录了国内外的众多 AI工具,包括AI写作工具、AI图像生成和处理、AI视频制作、AI音频转录、AI辅助编程、AI音乐生成、AI绘画设计、AI对话聊天等AI工具,以及AI学习开发的常用网站、教程、开源框架、开源模型和数据集等
      • 提交AI工具
      • 申请友链
      • 广告合作
      关注微信公众号AIHunt | 几百个AI工具导航,国内外AI工具导航大全
      关注微信公众号
      订阅 Telegram 频道AIHunt | 几百个AI工具导航,国内外AI工具导航大全
      订阅 Telegram 频道


        
      网址
      网址文章软件书籍