RLHF讲解

RLHF包含了两个至关重要的步骤:

  1. 训练Reward Model
  2. 用Reward Model和SFT Model构造Reward Function,基于PPO算法来训练LLM
    1. frozen RM
    2. frozen SFT Model
    3. Actor π Φ R L \pi_{\Phi}^{R L} πΦRL initialized from SFT Model
    4. Critic V η V_\eta Vη initialized from RM

RLHF讲解_第1张图片


参考

RLHF理论篇

你可能感兴趣的:(LLM,LLM,RLHF,PPO,Actor-Critic)