火爆全网的ChatGPT 背后的工作原理

火爆全网的ChatGPT 背后的工作原理:

第1步是有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的 prompt 列表生成输出的有监督的策略(即 SFT 模型);

第2步是模拟人类偏好:标注者们对相对大量的 SFT 模型输出进行投票,这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM);

第3步是近端策略优化(PPO):RM 模型用于进一步调优和改进 SFT 模型,PPO 输出结果是的策略模式;

火爆全网的ChatGPT 背后的工作原理_第1张图片
火爆全网的ChatGPT 背后的工作原理_第2张图片
火爆全网的ChatGPT 背后的工作原理_第3张图片

你可能感兴趣的:(ChatGPT,chatgpt)