论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读

代码 https://github.com/openai/lm-human-preferences

在train_policy.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_第1张图片
看出 有一个ref_policy作为ground-truth

在train_reward.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_第2张图片
看出 可以同时用于reward_model自身的训练 和 用reward_modelref_policy打分

你可能感兴趣的:(强化学习,强化学习)