DPO

共 1 篇文章

排序

发布更新浏览点赞

为视觉语言多模态模型进行偏好优化

为视觉语言多模态模型进行偏好优化

为视觉语言多模态模型进行偏好优化训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本，因为这些算...

AI 技术文章 # DPO # TRL # VLM

2年前

02340