chatGPT背后的技术之instructGPT简介

instructGPT三个步骤:

  • 1.有监督预训练gpt模型
  • 2.训练RL的排序模型
  • 3.使用2中的RL模型,通过RL中的ppo算法,优化1中的gpt模型

<<< 未完待续

参考资料:

  • https://www.bilibili.com/video/BV1hd4y187CR

你可能感兴趣的:(nlp,chatgpt,人工智能,深度学习)