为视觉语言多模态模型进行偏好优化为视觉语言多模态模型进行偏好优化 训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算...AI 技术文章# DPO# TRL# VLM1年前02340