Process-based Self-Rewarding Language Models 论文简介
基于过程的自奖励语言模型:LLM优化的新范式引言大型语言模型(LLM)在多种任务中展现出了强大的能力,尤其是在使用人工标注的偏好数据进行训练时。然而,传统的自奖励范式在数学推理任务中存在局限性,甚至可能在迭代训练中导致模型性能下降。为了解决这些问题,论文《Process-basedSelf-RewardingLanguageModels》提出了一种新的框架,该框架结合了长链推理、逐步LLM评判(L