DeepSpeed-Chat:Reward Model【奖励模型】

第二阶段:奖励模型微调

奖励模型 (RM) 微调类似于第一阶段有监督微调 (SFT) 。 但是,RM 和 SFT 微调之间存在几个关键差异:

  • 训练数据差异:对于 SFT 微调,数据是查询(query)和答案(answer)拼接在一起。 然而,对于 RM 微调,每批数据由两个查询-答案对组成,即具有高分答案和低分答案的相同查询。 这也导致了如下所述的第二个差异。

  • 训练目标差异: 对于 RW,训练目标是 pairwise ranking score,即对于两个查询-答案对,RM 应该给更好的答案更高的分数。 有多种方法可以实现这一目标。 在DeepSpeed Chat的实现中,使用序列的结束标记或第一个填充标记作为聚合分数并比较它们当然,也可以使用整个答案的平均分数作为替代。

  • --num_padding_at_beginning 参数

你可能感兴趣的:(#,LLM/训练,RL/强化学习,排序,强化学习)