InstructGPT技术原理

ChatGPT背后的技术原理:

InstructGPT技术原理_第1张图片

  • 第二步中已经完成了奖励模型的训练,在第三步中奖励模型用PPO来训练第一步中微调好的GPT3,使其能够生成符合指令的文本

你可能感兴趣的:(nlp,强化学习,GPT,PPO)