大语言模型-RLHF(五)-PPO(Proximal Policy Optimization)原理&实现&代码逐行注释-论文导读
一,前言从openAI的论文可以看到,大语言模型的优化,分下面三个步骤,SFT,RM,PPO,我们跟随大神的步伐,来学习一下这三个步骤和代码实现,本章介绍PPO论文。上一章介绍了论文的核心点,那我们对照原文,看看大神们是怎么写的摘要首先对比强化学习几种不同的方法,deepQ-learning、policygradientmethods和naturalpolicygradientmethods。1,