台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程

  • ChatGPT官方Blog:
  • ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:
    • (1)Chat GPT的學習四階段
      • 1.學習文字接龍
      • 2.人類老師引導文字接龍的方向
      • 3.模仿人類老師的喜好
      • 4.用增強式學習向模擬老師學習
    • (2)ChatGPT仍不是完美的,不足
  • ChatGPT总结:GPT 社會化的過程

  • 台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程报告链接:
    https://www.youtube.com/watch?v=e0aKI2GGZNg
  • 体验ChatGPT的Link:http://chat.openai.com/chat
  • ChatGPT官方Blog:http://openai.com/blog/chatgpt/

补充:

  • 本次报告PPT:ChatGPT (v6).pptx https://docs.google.com/presentation/d/1vDT11ec_nY6P0o–NHq9col5XEE4tHBw/edit#slide=id.p21
  • Instruct GPT 論文連結: https://arxiv.org/abs/2203.02155
  • GPT-3 介紹 – 來自獵人暗黑大陸的模型: https://youtu.be/DOG1L9lvsDY
  • INSIDE 以本影片為基礎撰寫的文章:https://www.inside.com.tw/article/30032-chatgpt-possible-4-steps-training

ChatGPT官方Blog:

  • ChatGPT官方Blog:http://openai.com/blog/chatgpt/
  • OpenAI在2022年11月30日发布:ChatGPT: Optimizing
    Language Models for Dialogue.
    (We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is a sibling model to
    InstructGPT, which is trained to follow aninstruction in a prompt and provide adetailed response.
    我们训练了一个名为ChatGPT的模型,它以对话的方式进行交互。对话格式使ChatGPT能够回答后续问题,承认错误,挑战不正确的前提,并拒绝不适当的任务。ChatGPT是InstructGPT的兄弟模型,ChatGPT经过训练可以按照提示执行指令,并提供详细的响应。)ChatGPT可以回答问题(喜欢标号123)、写代码、翻译、帮助改正语法错误
    台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第1张图片
    训练步骤:
  1. 收集演示数据并训练一个受监督的策略。(从prompt数据集中抽取prompt。标签器展示了期望的输出行为。这些数据用于使用监督学习微调gpt-3.5。 )
  2. 收集比较数据并训练一个reward奖励模型。(一个prompt和几个模型输出被采样。标签器将输出从最好到最差进行排序。这些数据被用来训练我们的奖励模型。)
  3. 使用PPO强化学习算法针对奖励模型优化策略。(从数据集中采样一个新的prompt。PPO模型由有监督策略初始化。策略生成一个输出。奖励模型为输出计算奖励。奖励用于使用PPO更新策略。 )

ChatGPT未公布论文——根据兄弟模型InstructGPT论文进行猜想:

  • InstructGPT:《Training language models to follow instructions with human feedback》:https://arxiv.org/abs/2203.02155
  • GPT = Generative Pre-trained Transformer

(1)Chat GPT的學習四階段

1.學習文字接龍

GPT输出每一次都是不一样的,有随机性的。
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第2张图片
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第3张图片
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第4张图片
缺点:每次输出都不同,导致后续接的话不符合我们的想法。
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第5张图片
如何引導GPT產生有用的輸出呢?

2.人類老師引導文字接龍的方向

台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第6张图片
让GPT以後多看這些有益的文句,知道人类思考方向,减少阅读学习網路上的。
GPT不需要窮盡所有的問题·我們只是要告訴GPT人類的偏好,每种类型提供几个范例就足够。

3.模仿人類老師的喜好

公布ChatGPT的API,很多人去使用,可以收集这些问题,让ChatGPT产生问题答案,雇佣人类标注哪些答案好/差,人类老师只需要评价哪个比哪个好。
训练Teacher Model,需要输出分数,目的是:模仿老师评分标准。
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第7张图片

4.用增強式學習向模擬老師學習

增強式學習:調整參數·得到最大的Reward,目的:希望GPT输出在Teacher Model中给予高分
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第8张图片
台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第9张图片

(2)ChatGPT仍不是完美的,不足

简单的问题+没用的话。

ChatGPT总结:GPT 社會化的過程

台大李宏毅报告:ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程_第10张图片

你可能感兴趣的:(读文章笔记与会议学习笔记,chatgpt,人工智能,深度学习)