谷歌发布West-of-N,利用合成数据,显著提升LLM奖励模型质量 | 今日Arxiv最热大模型论文
导语:论文提出了一种新的通过生成合成偏好数据来提升奖励模型质量的方法,引入了一种自我训练策略,通过筛选最优和最差候选来生成偏好对。实验证明,这种方法可以提高任何奖励模型的性能,效果类似于添加同等量的人类偏好数据。这为改善人类反馈强化学习(RLHF)在语言模型对齐上提供了新的研究方向。引言:人类反馈对语言模型的影响在人工智能领域,语言模型的发展已经达到了令人瞩目的水平,它们能够生成流畅、连贯且在很多