chatGPT

对ChatGPT 瞎想

对ChatGPT的理解

网上对它理解专业名词太多,尝试着总结了一下,当然理解可能还有很多错误。主要是分3步

一、训练一个基础模型,它能理解人类问题中所包含意图,并给出答案
缺陷:这个答案是有权重的,部分权重高的答案不一定就是真正的答案

二、训练一个奖励模型

  1. 先用基础模型用同一个问题,回答出多个答案,例如先问三次:
    问:老板,怎么样才能给我涨工资?
    答案1 先吃了我这个饼再说
    问:老板,怎么样才能给我涨工资?
    答案2 提高自己的专业素质
    问:老板,怎么样才能给我涨工资?
    答案3 给公司再多创造100块钱价值,可以分你5块钱

  2. 然后人工给问题的答案打分。让模型知道哪些是高分的 答案。
    问:老板,怎么样才能给我涨工资?
    答案1 先吃了我这个饼再说 1分
    答案2 疯狂干活给老板搬砖 3分
    答案3 提高自己的专业素质,找到个好工作,再回来谈条件 4分

三、用奖励模型来训练基础模型,让基础模型回答的更加准确,比如我们抛弃小于3分的答案,这时基础模型回答该问题就只会有答案2和答案3
然后反复循环二、三。逐步提高基础模型质量

自己的瞎想

如果让基础模型直接爬取微信之类的点对点的聊天记录,
下一句就是上一句的答案,直接用答案出现的次数当成权重,不需要奖励模型了,这样没有了人的参与,就可以无休止的不停的跑了,这样会不会训练出一个人精?

你可能感兴趣的:(chatgpt,人工智能)