DataFun: ChatGPT背后的模型详解

ChatGPT背后的模型详解

Overview

DataFun: ChatGPT背后的模型详解_第1张图片

Transofrmer

DataFun: ChatGPT背后的模型详解_第2张图片
DataFun: ChatGPT背后的模型详解_第3张图片
各个构件都有一定的作用

Multi-head self attention

DataFun: ChatGPT背后的模型详解_第4张图片
每个字的重要性不一样,学习QKV三个矩阵(query,key,value)
DataFun: ChatGPT背后的模型详解_第5张图片
多组QKV
DataFun: ChatGPT背后的模型详解_第6张图片
DataFun: ChatGPT背后的模型详解_第7张图片

RLHF

DataFun: ChatGPT背后的模型详解_第8张图片
DataFun: ChatGPT背后的模型详解_第9张图片

DataFun: ChatGPT背后的模型详解_第10张图片
DataFun: ChatGPT背后的模型详解_第11张图片
DataFun: ChatGPT背后的模型详解_第12张图片
DataFun: ChatGPT背后的模型详解_第13张图片
DataFun: ChatGPT背后的模型详解_第14张图片
DataFun: ChatGPT背后的模型详解_第15张图片

ChatGPT训练过程

DataFun: ChatGPT背后的模型详解_第16张图片
DataFun: ChatGPT背后的模型详解_第17张图片
DataFun: ChatGPT背后的模型详解_第18张图片
DataFun: ChatGPT背后的模型详解_第19张图片
DataFun: ChatGPT背后的模型详解_第20张图片
DataFun: ChatGPT背后的模型详解_第21张图片

思维链 COT

DataFun: ChatGPT背后的模型详解_第22张图片
DataFun: ChatGPT背后的模型详解_第23张图片
DataFun: ChatGPT背后的模型详解_第24张图片

DataFun: ChatGPT背后的模型详解_第25张图片

你可能感兴趣的:(AIGC,人工智能,大模型,ChatGPT)