PPO算法是什么?

  • ppo称作近邻策略优化算法,是典型的Actor- critic算法,即以两个网络为输入,并可以同时更新两者参数;在RLHF中我们更关注actor网络的更新方式,其损失函数由三部分构成,分别是:1,新旧状态输出比;2,优势函数,3,输入惩罚因子。

PPO算法是什么?_第1张图片

你可能感兴趣的:(大模型面试必考问题,机器学习,经验分享,oneapi,笔记,人工智能)