ChatGPT原理学习

参考

参考视频

GPT1

ChatGPT原理学习_第1张图片
曾经2018年BERT很火。其实GPT也有了。
区别:BERT:完形填空:中间扣空了预测;GPT:预测未来

GPT1:先要有个预训练模型,然后基于具体的应用做fine-tune(下游任务做微调),才能用

GPT2

不搞fine-tune了,直接搞个大模型,做所有的事情。
zero-shot
one-shot
few-shot
ChatGPT原理学习_第2张图片
给个任务描述,给个例子,prompt,就能得出结果。很像人的一个理解过程,理解自己要干什么事情。

ChatGPT

ChatGPT原理学习_第3张图片
需要学习人的逻辑(商业化,不能直接胡说八道,有些话不能说)
例子:
ChatGPT原理学习_第4张图片

强化学习


奖励模型(让模型知道什么是好的回答)
例子:模型输出4种回答。标注员标好了每种回答的分数是多少。损失函数:让分高(好的回答)跟分低(坏的回答)的差距大。


强化学习无限迭代:
输入问题 – PPO模型输出(回答的问题) – 过奖励模型 – 输出分数是高是低 – 反馈到PPO模型迭代

奖励模型怎么更新

  • 得分要高
  • 与标注结果的差异要低
  • 泛化能力要高(在不同的下游任务的表现也要做的不错)

SFT:有监督模型
RL:强化学习模型
两个模型差异要小。

你可能感兴趣的:(chatgpt,学习,人工智能)