从原理到实现教你做出一个ChatGPT应用

▼最近直播超级多,预约保你有收获

今晚直播:从原理到实现教你做出一个 ChatGPT 应用

 1

ChatGPT 技术架构剖析

ChatGPT 作为大语言模型(Large Language Model)暴力出奇迹的典型代表,你知道它的技术架构是怎么实现的吗?

从总体架构来看,ChatGPT 技术架构分为三个组成部分:第一部分是离线(Offline)预训练(PreTraining)、第二部分是离线微调(Fine Tuning)、第三部分是在线推理(Retrieval)。

离线训练的第一和第二部分,采用了 Decode Only 的 Transformer 架构(如下图),通过海量的数据工程、模型训练、模型验证等重要环节,完成 LLM 大模型参数权重的确定。

从原理到实现教你做出一个ChatGPT应用_第1张图片

比如:GPT 3,使用了 45 TB(数据清洗后剩余 570 GB)的训练数据,花费了 140万美金,长达 7个月时间,训练确定了 1750 亿参数的权重。

ChatGPT 在 GPT 3 预训练的基础上,引入了人类反馈强化学习(RLHF)模块,进一步增强 ChatGPT 的综合能力。

第三部分在线推理,基于用户输入的 Prompt 逐字(token)预测下一个字,直到预测到结束符 EOS(End Of Sentence)。在线推理工程架构(如下图)尤其重要,决定了推理速度、可用性、稳定性。 

从原理到实现教你做出一个ChatGPT应用_第2张图片

 2

ChatGPT 是如何生成下一个字的?

第一、ChatGPT 在预训练时候会确定 token 词表的大小(具体确定算法可以采用 BPE),比如:52000 个 tokens。

第二、对用户输入的 Prompt 提示词进行 tokenizer 分词,然后通过 Embedding Model 进行向量化,给到 ChatGPT。

第三、ChatGPT 通过 Transformer 神经网络架构进行预测下一个字(token),具体是预测和词表中的每个字的概率大小(如下图)。

从原理到实现教你做出一个ChatGPT应用_第3张图片

第四、持续第三部分过程,直到预测的输出为 EOS,返回给用户作为本次会话的回复。

3

纯干货 ChatGPT 技术实战今晚直播

为了帮助同学们掌握好 ChatGPT 技术架构和应用案例实战,今晚20点,我会开一场直播和同学们深度聊聊 GPT 核心技术演进剖析、如何离线预训练+微调一个 ChatGPTChatGPT 在线工程架构设计与实现请同学点击下方按钮预约直播,咱们今晚20点不见不散哦~~

近期直播:从原理到实现教你做出一个 ChatGPT 应用

END

你可能感兴趣的:(chatgpt)