ChatGPT 中的人类反馈强化学习 (RLHF) 实战

目录

  • 1 前言
  • 2 人类反馈强化学习 (RLHF)
    • 2.1 奖励模型 (RM)
  • 3 总结


团队博客: CSDN AI小组


相关阅读

  • ChatGPT 简介

1 前言

在当今数字化的时代,ChatGPT 的火热程度不断升级。ChatGPT官方博客。

在这里插入图片描述

图1 InstructGPT 模型的训练过程

2 人类反馈强化学习 (RLHF)

人类反馈强化学习 (RLHF) 是 ChatGPT 中一种用于改善其回答效果的算法。

2.1 奖励模型 (RM)

损失函数

# loss function
def loss_function(prefer_reward, alter_reward):
    return -torch.mean(torch.log(torch.sigmoid(prefer_reward - alter_reward)))

3 总结

RLHF 可以根据用户反馈不断学习和优化对话,从而提高对话的质量和效果。

你可能感兴趣的:(博客质量分测试,chatgpt,人工智能,python)