一文打通RLHF的来龙去脉

文章目录

  • 1. RLHF的发展历程
  • 2. 强化学习
    • 2.1 强化学习基本概念
    • 2.2 强化学习分类
    • 2.3 Policy Gradient
      • 2.3.1 add a baseline
      • 2.3.2 assign suitable credit
    • 2.4 TRPO和PPO算法
      • 2.4.1 on-policy
      • 2.4.2 Important Sampling
      • 2.4.3 Off Policy
      • 2.4.4 TRPO 和 PPO 算法
      • 2.4.5 P

你可能感兴趣的:(AI算法,自然语言处理,人工智能,语言模型,AIGC,chatgpt,强化学习,RLHF)