本文是笔者自学ChatGPT的总结与思考,类型为综述文章,适合想全面了解ChatGPT或对人工智能感兴趣的小伙伴~~
目录先行,自行找需,全文三万六千余字。分为三大模块,追求效率可跳转感兴趣部分直接开卷。
感谢大佬们以前的写的文章给我提供了素材和思路,欢迎大家转发交流,您的点赞关注收藏是对我最大的鼓励噢,本文为博主原创文章,转载请附上原文出处链接和声明。
随着计算机技术的飞速发展,人工智能已经成为当前最热门的研究领域之一。在人工智能领域中,自然语言处理是一个重要的分支。它研究如何使计算机和人类能够以自然语言的方式进行交流。
新年伊始,你可能会想,人工智能领域最热门的技术是什么?那应该是 ChatGPT。它就像一个六角战士,可以聊天、编写代码、修复错误、创建表单、发表论文、做作业、翻译,甚至是谷歌搜索引擎的有力竞争者。
2022年12月1日,OpenAI推出人工智能聊天原型ChatGPT,ChatGPT是一种由OpenAI开发的预训练语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是Generative Pre-trained Transformer(生成型预训练变换模型)的缩写。它是基于Transformer架构,并使用了大量的文本数据进行训练,以实现对自然语言的理解和生成。ChatGPT具有出色的语法理解能力和语义理解能力,并且能够生成高质量的文本。因此,它被广泛应用于聊天机器人、问答系统、机器翻译等多领域。
近期ChatGPT突然爆火,在2个月内达到1亿活跃用户 ,是历史上增长最快的消费者应用程序。甚至有懂技术和懂赚钱的商业鬼才利用ChatGPT国内注册和使用的壁垒来赚钱,几天怒赚几百W(慕!),可见ChatGPT对当今风靡的程度。
接下来让我们揭开ChatGPT神秘的面纱吧!
以下是本篇文章正文内容
ChatGPT是由OpenAI团队研发创造,OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等人于2015年在旧金山创立的一家非盈利的AI研究公司,其总部位于美国加利福尼亚州,并拥有多位硅谷重量级人物的资金支持,启动资金高达10亿美金。OpenAI的使命是使人工智能技术对人类产生积极影响,并帮助人类应对其带来的挑战。
OpenAI的研究方向包括人工智能、机器学习、自然语言处理、强化学习等多领域。该机构拥有一支顶尖的研究团队,并与世界各地的研究机构和企业合作,以推动人工智能技术的发展。
OpenAI 的ChatGPT是生成式人工智能技术(AIGC)。 AI模型可大致分为决策式/分析式AI(Discriminant/Analytical AI)和生成式AI (Generative AI)两类。决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系 统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。
ChatGPT爆火的背后是人工智能算法的迭代升级。神经网络的爆发使人工智能广泛应用:2015年左右开始繁荣爆发,神经网络是实现AI深度学习的一种重要算法,是通过对人脑的基本单
元神经元的建模和链接,探索模拟人脑系统功能的模型,并研发出的一种具有学习、联想、记忆和模式识别等具有智慧信息处理功能的
人工系统。典型的应用场景为自然语言处理(NLP)和机器视觉(CV),其中具有代表的两个模型分别是循环神经网络(RNN)和卷积神经网络(CNN)。
国内外科技巨头都非常重视ChatGPT引发的科技浪潮,积极布局生成式AI,部分公司已有成型产品。
最近大火的ChatGPT的计算逻辑来自于一个算法名字叫Transformer。它来源于2017年的一篇科研论文《Attention is all your need》。Transformer算法在神经网络中具备跨时代的意义。Transformer具备跨时代的意义的原因是算法上添加了注意力机制,这种机制具备突破性的原因在于
1、突破了RNN 模型不能并行计算的限制;
2、相比CNN模型,关联所需的操作次数不随距离增长;
3、模型解释力度明显加强。从结果上看,
根据CDSN数据,Transformer的综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,因此此算法正逐步取代RNN算法,也是ChatGPT算法的底座。
从Transformer提出到GPT的诞生,再到GPT2的迭代标志Open AI成为营利性公司,以及GPT3和ChatGPT的“出圈”;再看产业界,第四范式涉及到多个重要领域比如生物医疗,智能制造纷纷有以Transformer落地的技术产生。
ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练,或用于收集大量对话数据。
GPT是OpenAI开发的一种预训练语言模型。它采用了Transformer网络结构,并在语言任务领域中具有很高的表现。GPT的主要优势在于它可以通过预训练大量语料数据来获得对语言任务的预测能力,而不需要大量的人工标注数据。它具有良好的语言生成能力,可以生成文本、回答问题、进行对话等多项语言任务。
学习资料:
ChatGPT怎么变得这么强?华人博士万字长文拆解GPT-3.5
ChatGPT背后的超神模型:GPT-1到GPT-3.5是如何演化的?
一文讲清chatGPT的发展历程、能力来源和复现它的关键之处
作为一个大型语言模型,ChatGPT是通过大量的数据和算法训练得到的。下面是大致的技术路径:
我让ChatGPT帮我推荐论文,竟然没有InstructGPT,感觉不是很满意结果,之后我又运用多种方式来提问他,最后选出我认为入门必读的10篇论文。
ChatGPT 使用的预训练模型 GPT,而Transformer是GPT的核心组成部分。
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.
该文章是一篇由Google Brain的研究人员于2017年发表在NIPS会议上的论文。该论文介绍了一种新的神经机器翻译模型Transformer,并且该模型在机器翻译任务上表现出了非常好的性能。Transformer模型使用了self-attention机制来计算输入序列中各个位置之间的依赖关系,避免了传统的循环神经网络模型中需要进行逐步迭代的计算,大大加快了模型的训练速度。在传统的机器翻译模型中,通常使用编码器-解码器(Encoder-Decoder)结构来进行翻译。编码器将输入序列(例如英文句子)转换为一系列隐藏状态,然后解码器使用这些隐藏状态来生成输出序列。在这个过程中,编码器和解码器之间通常使用循环神经网络进行连接。但是,这种结构在长序列的情况下容易产生梯度消失和梯度爆炸等问题,导致模型性能下降。Transformer模型通过引入self-attention机制,避免了循环神经网络的限制。Self-attention机制可以将输入序列中各个位置之间的依赖关系进行并行计算,使得每个位置都可以直接参考输入序列中所有其他位置的信息。这样可以更好地捕捉序列中的长程依赖关系,从而提高模型的性能。
Transformer的主要优点在于它不依赖于传统的循环神经网络,因此具有更高的并行计算能力和更好的处理长序列数据的能力。回到ChatGPT,它是在Transformer架构的基础上进行改进和扩展,并在大量的文本数据上进行预训练,以提高对自然语言的理解能力。ChatGPT使用了两个模型组成:一个用于语言理解,一个用于文本生成。它可以通过输入文本来预测输出文本,并且能够生成高质量的文本。
Transfomer优秀学习资料:
Transformer的细节到底是怎么样的? - 月来客栈
Transformer模型详解(图解最完整版)
Title:Improving Language Understanding by Generative Pre-Training
英文摘要
Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).
简介
该论文提出了一种名为Generative Pre-Training的预训练方法,旨在提高自然语言处理任务中的语言理解能力。这种方法利用了大量的未标记数据来训练模型,这种训练方式被称为预训练。
具体来说,Generative Pre-Training的思路是,利用Transformer等深度神经网络模型,在大规模未标记语料上进行预训练。在预训练中,模型学习使用无监督任务来学习语言表示,例如利用掩码语言模型和下一句预测任务等。在这个过程中,模型可以学习语言中的各种语言知识和语言规则,包括语义、语法、词义等等。这些学习到的知识可以用于后续监督训练的微调,从而提高模型在这些任务上的性能。
Generative Pre-Training方法的优点是,它可以在大规模未标记语料上进行训练,从而可以提高模型的泛化能力。此外,通过预训练,模型可以学习到更为通用的语言表示,可以用于多个自然语言处理任务。
Title:Language Models are Unsupervised Multitask Learners
英文摘要
Natural language processing tasks, such as question answering, machine translation, reading comprehension, and summarization, are typically approached with supervised learning on taskspecific datasets. We demonstrate that language models begin to learn these tasks without any explicit supervision when trained on a new dataset of millions of webpages called WebText. When conditioned on a document plus questions, the answers generated by the language model reach 55 F1 on the CoQA dataset matching or exceeding the performance of 3 out of 4 baseline systems without using the 127,000+ training examples. The capacity of the language model is essential to the success of zero-shot task transfer and increasing it improves performance in a log-linear fashion across tasks. Our largest model, GPT-2, is a 1.5B parameter Transformer that achieves state of the art results on 7 out of 8 tested language modeling datasets in a zero-shot setting but still underfits WebText. Samples from the model reflect these improvements and contain coherent paragraphs of text. These findings suggest a promising path towards building language processing systems which learn to perform tasks from their naturally occurring demonstrations.
简介
GPT-2的学习目标是使用无监督的预训练模型做有监督的任务。该论文使用了无监督学习的方法,通过预先训练来完成多种自然语言处理任务,从而为各种应用场景提供服务。GPT-2的核心思想概括为:任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务。
主要贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。但是很多实验也表明,GPT-2的无监督学习的能力还有很大的提升空间,甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot的任务上的表现不错,但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,基于这个思想,诞生了我们下面要介绍的GPT-3。
GPT1和GPT2对比:
1.GPT1使用了双向Transformer,而GPT2使用了单向Transformer。
2.GPT1通过了两个阶段的微调来适应不同的自然语言处理任务,而GPT2使用了多任务学习来进行微调。
3.GPT1是在BERT模型之前提出的,而GPT2是在BERT模型之后提出的,它使用的是基于Transformer的架构和更多的未标记数据,因此表现更优秀。
学习资料:
GPT-2技术学习(论文+原理+代码)
5. InstructGPT
虽然现在ChatGPT没有论文发布,但是ChatGPT与Open AI此前发布的InstructGPT具有非常接近的姊妹关系,两个模型的算法原理也非常接近,因此InstructGPT有较为可靠的参考价值。
Title:Training language models to follow instructions with human feedback
英文摘要
Making language models bigger does not inherently make them better at following a user’s intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not aligned with their users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, InstructGPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for aligning language models with human intent.
简介
该论文介绍了一种新方法,该方法使用人类反馈指导语言模型执行特定任务。在传统的机器学习方法中,通常需要手动为模型标记数据并进行训练。而这篇论文提出的方法则通过与人类合作,让模型通过互动学习任务的执行。
具体来说,该论文提出的方法包括以下几个步骤:
提供指令:系统向模型提供一组指令,要求模型执行某个任务。这些指令可能是自然语言文本,也可能是一系列操作。
模型执行任务:模型根据指令尝试执行任务。
人类提供反馈:人类根据模型执行的结果提供反馈,反馈可以是正面的或负面的。如果模型执行得好,反馈就是正面的,如果模型执行得不好,反馈就是负面的。
模型更新:模型根据人类提供的反馈进行更新,尝试更好地执行任务。
重复以上步骤:系统通过反复执行上述步骤来不断改进模型的性能。
通过以上步骤,该论文提出的方法能够帮助模型更好地理解自然语言指令,从而更好地执行任务。同时,该方法还可以减少人工标注数据的需求,从而提高了训练效率。可以说该论文提出了一种基于互动学习的方法,能够让语言模型更好地执行任务。这一方法在实际应用中具有很大的潜力,可以为语言理解、智能对话等领域带来新的突破。
学习资料:
OpenAI是如何“魔鬼调教” GPT的?——InstructGPT论文解读
Title:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
英文摘要
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications.
BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE score to 80.5% (7.7% point absolute improvement), MultiNLI accuracy to 86.7% (4.6% absolute improvement), SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point absolute improvement) and SQuAD v2.0 Test F1 to 83.1 (5.1 point absolute improvement).
简介
该论文介绍了一种新的自然语言处理模型BERT,旨在改进自然语言处理(NLP)任务中的语言理解能力。BERT采用了双向Transformer编码器,允许模型同时访问输入序列的左右两侧上下文信息,以更好地理解自然语言的含义。为了提高模型的泛化能力,BERT使用了两种预训练方式:Masked Language Model (MLM)和Next Sentence Prediction (NSP)。MLM随机屏蔽输入序列的某些单词,使模型尝试预测被屏蔽的单词。NSP要求模型预测两个句子是否是连续的。BERT在多项NLP任务中取得了最新的最佳结果,如问答、文本分类、自然语言推理等任务。
该论文的贡献在于,提出了一种预训练方法和双向Transformer编码器,以更好地处理自然语言的上下文和语义。BERT成为当时最新的自然语言处理领域的最佳模型之一,其思路和方法也被广泛应用于自然语言处理领域,成为了自然语言处理领域的重要里程碑之一。
Title:Augmenting Reinforcement Learning with Human Feedback
英文摘要
As computational agents are increasingly used beyond research labs, their success will depend on their ability to learn new skills and adapt to their dynamic, complex environments. If human users — without programming skills — can transfer their task knowledge to agents, learning can accelerate dramatically, reducing costly trials. The TAMER framework guides the design of agents whose behavior can be shaped through signals of approval and disapproval, a natural form of human feedback. More recently, TAMER+RL was introduced to enable human feedback to augment a traditional reinforcement learning (RL) agent that learns from a Markov decision process’s (MDP) reward signal. Using a reimplementation of TAMER and TAMER+RL, we address limitations of prior work, contributing in two critical directions. First, the four successful techniques for combining a human reinforcement with RL from prior TAMER+RL work are tested on a second task, and these techniques’ sensitivities to parameter changes are analyzed. Together, these examinations yield more general and prescriptive conclusions to guide others who wish to incorporate human knowledge into an RL algorithm. Second, TAMER+RL has thus far been limited to a sequential setting, in which training occurs before learning from MDP reward. We modify the sequential algorithms to learn simultaneously from both sources, enabling the human feedback to come at any time during the reinforcement learning process. To enable simultaneous learning, we introduce a new technique that appropriately determines the magnitude of the human model’s influence on the RL algorithm throughout time and state-action space.
简介
我使用ChatGPT的时候其中最令人印象深刻的就是它的保护机制,比如它不会为暴力行动提供建议、也不会为世界杯结果进行预测等等。虽然我用Prompt Injection 攻击撬开过 ChatGPT 的保护方式,但ChatGPT 的开发者也在想方设法提升保护机制。OpenAI 投入了大量的精力让 ChatGPT 更安全,其主要的训练策略采用 RLHF,简单来说,开发人员会给模型提出各种可能的问题,并对反馈的错误答案进行惩罚,对正确的答案进行奖励,从而实现控制 ChatGPT 的回答。
在强化学习中,智能体在与环境交互的过程中,通常需要通过与环境的交互来学习到最优策略。然而,在某些情况下,由于环境太过复杂或任务不够明确,智能体可能无法获得足够的奖励信号来推导出最优策略。因此,该论文提出了一种基于人类反馈的增强学习方法——人类反馈强化学习(Human Feedback Reinforcement Learning,HFRL)。该方法通过人类提供反馈信息,指导智能体学习到更优的策略。同时,为了防止人类反馈过于频繁地干扰学习,该方法还引入了一种基于学习的策略选择(Learning-Based Policy Selection,LBPS)方法,动态平衡人类反馈和自主学习的权衡。实验结果表明,HFRL方法比传统的强化学习方法和其他基于人类反馈的方法在各种任务上都有更好的表现。该论文的研究成果为利用人类反馈指导强化学习提供了一种新的思路和方法,也为将强化学习方法应用于实际应用场景提供了新的可能性。
学习资料:
抱抱脸:ChatGPT背后的算法——RLHF | 附12篇RLHF必刷论文
RLHF:基于人类反馈(Human Feedback)对语言模型进行强化学习【Reinforcement Learning from Human Feedback】
How ChatGPT actually works
Why is ChatGPT so good?
9.Adam收敛 --On the Convergence of Adam and Beyond–ICLR 2018最佳论文
该论文主要探讨了常用的优化器Adam在训练深度神经网络时可能出现的问题,以及提出了一种新的优化器RAdam(Rectified Adam)来解决这些问题,为ChatGPT中的优化器设计提供了参考。
Title:On the Convergence of Adam and Beyond
英文摘要
Several recently proposed stochastic optimization methods that have been successfully used in training deep networks such as RMSProp, Adam, Adadelta, Nadam are based on using gradient updates scaled by square roots of exponential moving averages of squared past gradients. In many applications, e.g. learning with large output spaces, it has been empirically observed that these algorithms fail to converge to an optimal solution (or a critical point in nonconvex settings). We show that one cause for such failures is the exponential moving average used in the algorithms. We provide an explicit example of a simple convex optimization setting where Adam does not converge to the optimal solution, and describe the precise problems with the previous analysis of Adam algorithm. Our analysis suggests that the convergence issues can be fixed by endowing such algorithms with `long-term memory’ of past gradients, and propose new variants of the Adam algorithm which not only fix the convergence issues but often also lead to improved empirical performance.
简介
这篇论文是由李宏毅等人于2019年提出的一篇论文。该论文主要探讨了常用的优化器Adam在训练深度神经网络时可能出现的问题,以及提出了一种新的优化器RAdam(Rectified Adam)来解决这些问题。Adam优化器是目前深度学习中应用最广泛的一种优化器之一,但在某些情况下会出现性能下降的问题,尤其是对于较大的批次大小(batch size)和高维度的参数空间。RAdam通过引入一个修正项,对Adam进行改进,可以在更广的范围内获得更稳定的性能。该论文的研究结论和RAdam优化器已被广泛应用于各种深度学习任务中。
Title:The Curious Case of Neural Text Degeneration
英文摘要
Despite considerable advancements with deep neural language models, the enigma of neural text degeneration persists when these models are tested as text generators. The counter-intuitive empirical observation is that even though the use of likelihood as training objective leads to high quality models for a broad range of language understanding tasks, using likelihood as a decoding objective leads to text that is bland and strangely repetitive.
In this paper, we reveal surprising distributional differences between human text and machine text. In addition, we find that decoding strategies alone can dramatically effect the quality of machine text, even when generated from exactly the same neural language model. Our findings motivate Nucleus Sampling, a simple but effective method to draw the best out of neural generation. By sampling text from the dynamic nucleus of the probability distribution, which allows for diversity while effectively truncating the less reliable tail of the distribution, the resulting text better demonstrates the quality of human text, yielding enhanced diversity without sacrificing fluency and coherence.
简介
在这篇论文中,作者首先介绍了文本生成任务中的一些基本概念和技术,包括循环神经网络(RNN)和变换器(Transformer)等模型。然后,作者详细说明了文本退化问题的出现原因和特点,并提出了一种名为“Top-k采样”的技术,用于缓解文本退化问题。该方法可以在每一步中只考虑前k个可能的单词或字符,从而避免模型倾向于生成重复或无意义文本的问题。作者在多个数据集和任务上验证了这种技术的有效性,证明了它可以显著提高生成文本的质量和多样性。此外,论文还讨论了一些与文本退化问题相关的实际应用,包括机器翻译、对话生成和摘要生成等任务。通过这些应用案例的分析,作者展示了文本退化问题对这些任务的影响,并说明了Top-k采样技术对于解决这些问题的重要性。
补充资料:
关于 ChatGPT 必看的 10 篇论文
ChatGPT 是一类被称为大型语言模型 (LLM) 的机器学习自然语言处理模型的外推。LLM 消化大量文本数据并推断文本中单词之间的关系。随着我们看到计算能力的进步,这些模型在过去几年中得到了发展。随着输入数据集和参数空间大小的增加,LLM 的能力也会增加。与其他 LLM 一样,ChatGPT 接受过大量不同数据源的培训,例如新闻文章、书籍、网站和社交媒体帖子,以学习语言的模式和结构。
GPT系列它们都是基于 Google 发起的革命性 Transformer 架构,那我们先从 Transformer 架构及其工作原理漫漫讲到RLHF吧。
Transformer
在提出transformer之前,我们使用基于RNN的Encoder-Decoder架构。由于使用了梯度下降,RNN 存在梯度消失的问题,科学家们很难绕过。
Transformer 通过仅使用 Attention 替代 Encoder-Decoder 架构中的 RNN 来避免这个问题。Transformer 的结构与 Encoder-Decoder 类似(见下图)。左侧块是编码组件,由N个编码器堆栈组成,右侧块是解码组件,包含相同数量的解码器堆栈。
Encoder
每个编码器由两个主要层组成:多头自注意力层和前馈层。多头自注意力层使用所有输入向量来生成具有相同维度的中间向量。这个过程混合了所有输入向量的信息。前馈层是完全连接的神经网络,它独立于多头自注意层产生的每个中间向量。通过前馈层后,新向量被向上发送到下一个编码器。
Decoder
每个解码器由三个主要层组成:屏蔽多头自注意层、编码器-解码器自注意层和前馈层。顶层编码器的输出将被转换成一组注意力向量,并馈送到编码器-解码器自注意力层,以帮助解码器关注输入的适当位置。
我们在每个解码器块上重复这个过程。中间向量通过解码器中的前馈层并向上发送到下一个解码器。顶部解码器的输出通过线性层和 softmax 层来产生字典中单词的概率。我们选择概率(分数)最高的词,然后将输出反馈给底部解码器并重复该过程以预测下一个词。
Self-Attention
Self-Attention 给出输入序列的每个元素的权重,表示在序列处理中的重要性。给定权重,我们可以得到我们应该对每个元素给予多少关注的信息。
多头自注意力意味着我们计算多个中间向量并将它们组合在一起以获得与输入向量具有相同维度的新中间向量。Multi-head self-attention 可以让我们从不同的角度得到输入向量之间的关系。
masked multi-head self-attention layer 是指我们在该层中添加一个mask,使模型只能看到序列的受限窗口大小。具体来说,在解码器中,我们只让模型看到之前输出序列的窗口大小,而不是未来输出序列的位置。
GPT-3 架构
GPT-3 仅使用 transformer 的解码组件。每个解码器由两个主要层组成:屏蔽多头自注意力层和前馈层。在最大的 GPT-3 模型中,我们使用了 1750 亿个参数、96 个自注意层、2048 个令牌窗口大小的掩码以及每个多头自注意层的 96 个自注意头。与转换器一样,GPT-3 基于输入和先前生成的标记,一次生成一个标记的输出文本。
GPT-3.5(聊天GPT)
GPT-3.5是GPT-3的微调版本,在GPT-3模型的微调阶段加入了RLHF。
RLHF(人类反馈强化学习)
RLHF 涉及三个主要步骤:预训练语言模型 (LM)、收集数据和训练奖励模型 (RM),以及使用强化学习微调语言模型。
在 ChatGPT 中,我们使用 GPT-3 的监督微调 (SFT) 版本作为语言模型。
RLHF 中 RM 的目标是给定一个文本序列,RM 可以返回一个应该代表人类偏好的标量奖励。用于训练 RM 的数据通过以下步骤收集。首先,我们从预定义数据集向 LM 提供一组提示,并从 LM 获得多个输出。其次,人工注释者将同一提示的输出从最佳到最差进行排序。第三,RM 使用带注释的提示数据集和 LM 生成的输出来训练模型。
对于强化学习部分,我们首先使用策略梯度 RL PPO(近端策略优化)从第一步复制原始 LM。对于从数据集中采样的给定提示,我们从原始 LM 和 PPO 模型中得到两个生成的文本。然后我们计算两个输出分布之间的 KL 散度。为了计算可用于更新策略的奖励,我们使用 PPO 模型的奖励(即 RM 的输出)减去 λ 乘以 KL 散度。
ChatGPT 取得惊人成绩的一个重要特点是在训练过程中引入了人类反馈强化学习(RLHF),以更好地捕捉人类的偏好。OpenAI团队从GPT-3.5系列中的一个模型进行微调,使用与 InstructGPT相同的方法,用人类反馈强化学习(RLHF)训练该模型,并对数据收集设置相对做了优化。
ChatGPT模型的训练过程主要分为三个主要阶段:
来源:https://www.hpc-ai.tech/blog/colossal-ai-chatgpt
第一阶段:从 Prompt 库中抽样,收集其人类反应,并使用这些数据微调预训练的大型语言模型。(训练监督策略模型)
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。
为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由人类标注人员,给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Supervised Fine-Tuning)。
此时的SFT模型在遵循指令/对话方面已经优于 GPT-3,但不一定符合人类偏好。
第二阶段:从 Prompt 库中采样,使用大型语言模型生成多个响应,手动对这些响应进行排序,并训练奖励模型 (RM) 以适应人类偏好。(训练奖励模型(Reward Mode,RM))
这个阶段的主要是通过人工标注训练数据(约33K个数据),来训练回报模型。
在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序。这一过程类似于教练或老师辅导。
接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。
RM模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。
第三阶段:基于第一阶段的监督微调模型和第二阶段的奖励模型,使用强化学习算法进一步训练大型语言模型。(采用PPO(Proximal Policy Optimization,近端策略优化)强化学习来优化策略。)
PPO的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数。
把回报分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。
如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。
如果想自己等效且低成本复制ChatGPT训练过程,可参考该解决方案Colossal-AI
开源解决方案复制了 ChatGPT 培训过程!只需 1.6GB GPU 内存即可使用,训练速度提高 7.73 倍!
ChatGPT作为一种聊天机器人模型,具有广泛的应用前景。它可以帮助企业和个人提高工作效率,实现客户服务自动化,并且在保证服务质量的同时节省大量人力成本。同时,ChatGPT可以用于语音识别、智能客服、智能对话系统等多种场景。随着人工智能技术的不断发展,ChatGPT将有望进一步拓展其应用范围,从而为企业和个人带来更多价值。总体来说,ChatGPT有着巨大的产业潜力,是一种有前途的人工智能技术。它将在未来不断发挥重要作用,推动人工智能产业的发展。
ChatGPT+传媒:实现智能新闻写作,提升新闻的时效性。
它可以作为一种智能内容生成工具,帮助制作和编辑人员更快地创建高质量的内容。此外,它还可以作为一种智能客服工具,帮助公司更好地处理客户询问和建议,提高客户满意度。例如,新闻编辑人员可以使用 ChatGPT 来生成新闻摘要和标题,广告公司可以使用它来生成广告文案,在线客服可以使用它来快速回答客户询问。
ChatGPT+营销:打造虚拟客服,赋能产品销售。
它可以作为一种智能内容生成工具,帮助营销人员更快地创建高质量的营销内容。此外,它还可以作为一种智能客服工具,帮助公司更好地处理客户询问和建议,提高客户满意度。例如,营销人员可以使用 ChatGPT 来生成营销电子邮件、社交媒体帖子和广告文案,销售人员可以使用它来快速回答客户询问,从而提高客户对产品和服务的信心。
ChatGPT+娱乐:人机互动加强,激发用户参与热情。
ChatGPT 在娱乐领域具有很多潜在的应用。例如,开发人员可以利用它创建聊天机器人应用程序,以便与用户进行互动,制作更具娱乐性的内容。此外,它还可以作为一种问答智能系统,通过回答用户关于游戏、电影、音乐等方面的问题,来提高用户体验。ChatGPT 可以帮助娱乐公司制作出更具互动性和娱乐性的内容,同时可以帮助他们提高用户体验,增加用户满意度。在未来,随着人工智能技术的发展,ChatGPT 在娱乐领域的应用前景也将非常广阔。
ChatGPT+教育:赋予教育教材新活力,让教育方式更个性化、更智能。
它可以作为一种智能助手,帮助学生更快地获得信息,解决学习中的问题,并且还可以作为一种教学工具,帮助教师更好地控制课堂气氛,提高教学效率。例如,学生可以使用 ChatGPT 获得关于课程内容的实时回答,教师可以使用它来评估学生的学习进度并且提供相应的支持。此外,ChatGPT 还可以通过语音识别和语音合成技术帮助辅助语音处理障碍的学生。
ChatGPT+其他:促进数实共生,助力产业升级。
医疗保健:通过让 ChatGPT 对患者的健康问题进行快速诊断,以帮助医生制定更准确的诊疗计划。
金融:通过让 ChatGPT 回答客户的财务问题,以帮助银行和金融机构提高客户服务质量。
商业:通过让 ChatGPT 回答销售代表的问题,以帮助他们更快地解决客户问题,并提高销售业绩。
制造业:通过让 ChatGPT 回答工程师的问题,以帮助他们更快地解决生产问题。
这些仅仅是 ChatGPT 应用的一些例子,实际上它还可以在其他许多行业得到应用。随着人工智能技术的不断发展,ChatGPT 在不同行业的应用前景也将越来越广阔。
AIGC (Artificial Intelligence for General Computation) 商业方向主要围绕人工智能的应用,具体来说可以有以下几点:
AIGC赋能–搜索引擎
AIGC 技术可以帮助搜索引擎更加智能地理解用户的查询,并返回更准确、更相关的搜索结果。这是因为它可以根据用户的查询历史和语言模式来判断用户的需求,并为其生成相应的回答。例如,如果用户查询“最近有什么好电影”,搜索引擎可以使用 AIGC 技术来识别用户对电影类型、上映日期等的具体要求,并返回相应的搜索结果。此外,AIGC 技术还可以帮助搜索引擎提高其自然语言处理能力,使其能够更好地理解和回答用户的询问。
Microsoft Bing在2009年5月28日由微软推出,截至2013年5月已成为北美地区第二大搜索引擎,加上为雅虎提供的搜索技术支持,必应已占据29.3%的市场份额。Bing同时集成了网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务。新版Microsoft Edge功能于2月8日发布,将加入AI聊天和相关写作功能。根据TechCrunch报道,除聊天功能外,这些写作功能可以有效帮助用户对长文章归纳总结提炼重点、对比筛选文章内容以及创造新内容。此外新版BING可以协助用户生成内容,包括电子邮件、规划旅行等。
AIGC赋能–新闻媒体
AIGC 技术也可以应用于新闻媒体。AIGC 技术可以帮助新闻媒体快速生成大量高质量的新闻报道,从而提高新闻媒体的生产效率。此外,AIGC 技术还可以帮助新闻媒体生成个性化的新闻报道,以满足不同读者的需求。例如,如果新闻媒体想要生成关于某地区经济发展情况的新闻报道,它可以使用 AIGC 技术来快速生成大量相关的新闻报道。这些新闻报道可以囊括该地区的经济数据、投资情况、就业情况等方面的信息,以满足读者对该地区经济情况的关注。AIGC 技术的应用于新闻媒体,可以提高新闻媒体的生产效率,同时也可以提供更多、更准确、更个性化的新闻信息,从而更好地满足读者的需求。
AIGC渗透传媒行业各个领域。随着人工智能技术的不断提高,未来它们在传媒行业的应用将更加广泛。
新闻采写:可以帮助新闻媒体快速生成新闻报道,并缩短新闻生成的时间。
编辑:可以帮助编辑快速生成各种类型的文本,如简报、评论等。
广告: 可以帮助广告公司快速生成各种类型的广告文本,如广告语、广告标语等。
节目制作:可以帮助电视台和节目制作公司生成节目剧本、对话等内容。
数字内容:可以帮助数字内容公司生成各种类型的数字内容,如微信文章、微博等。
AIGC促进各行业升级转型
AIGC技术不仅仅可以帮助传媒行业,它还有可能帮助其他行业实现升级转型。AIGC在各个行业的优势在于它能够处理和分析大量的数据,做出明智的决策,提高效率,并提供个性化的体验。
问:如何训练我自己的 ChatGPT 或 GPT-3?如何才能做到这一点吗?
答:当然!这实际上很容易做到。要达到 GPT-3 175B davinci 模型标准(及以上),您需要具备以下条件:
1.培训硬件:使用拥有约 10,000 个 GPU 和约 285,000 个 CPU 内核的超级计算机。如果你买不到它,你可以像 OpenAI 对微软所做的那样,花费他们10 亿美元(USD) 来租用它。
2.人员配备:对于培训,您需要接触世界上最聪明的博士级数据科学家。2016 年, OpenAI 每年向首席科学家 Ilya Sutskever 支付190 万美元(USD),他们拥有一支 120 人的团队。第一年的人员配置预算可能超过 2 亿美元。
3.时间(数据收集): EleutherAI 花了整整 12-18 个月的时间来同意、收集、清理和准备 The Pile的数据。请注意,如果 The Pile 只有 ~400B 代币,你需要以某种方式至少四次找到 The Pile 质量的数据才能做出类似于新效率标准的东西,即 DeepMind 的 Chinchilla 70B(1400B 代币),你可能想要瞄准现在几个 TB 就可以胜过 GPT-3。
4.时间(训练):预计模型需要 9-12 个月的训练,如果一切顺利的话。您可能需要多次运行它,并且可能需要并行训练多个模型。事情确实出错了,它们可能会完全弄乱结果(参见GPT-3 论文、中国的 GLM-130B和Meta AI 的 OPT-175B 日志)。
问:ChatGPT 是否在向我们学习?它有感觉吗?
答:不,2022 年没有语言模型是有感知力/意识的。ChatGPT 和 GPT-3 都不会被视为有感知力/意识。这些模型应该被视为非常非常好的文本预测器(就像你的 iPhone 或 Android 文本预测)。为了响应提示(问题或查询),AI 模型经过训练以预测下一个单词或符号,仅此而已。另请注意,当不响应提示时,AI 模型是完全静态的,没有思想或意识。
问:ChatGPT出来之后,对我们国内相关产业的影响?国内相关的厂商,阿里、百度未来一段时间落地情况?
专家答:关于从国家层面,GPT这个产品推出以后,网信办已经发出了一些政策相关的东西。从国家层面的角度来说,短期内我们很难看到ChatGPT这些产品直接跟国内的应用,或者做比较深度的结合,因为这块不管是基于信息安全,还是国内的一些产业保护的角度来说,国内可能都得需要有这样一个窗口期,得需要有逐步缓冲的时间。所以,国家后续会出台相关的政策,给国内的玩家们提供追赶的时机。从我们之前对百度文心类似产品的使用体验来看,内容的质量上百度文心和ChatGPT差距不是特别大,只是在内容的多样性上有差距。咱们国内研究相关的大模型的,目前主要靠工程人员和研发人员,大概几百号人或者上千号人这么研发,在这个过程中没有引入像OpenAI这种用户反馈机制,没有大量的用户在技术模型的迭代过程中参与进来。所以在内容的多样性上会有所欠缺。第三,可能跟目前实际没有放开政策有关系,就是比如像ChatGPT响应能力,一个Q过去,A回来大概是1-3秒,响应能力比较快。目前百度文心这边我们能够体验到的,大概短的在20秒左右,长的甚至在80秒以上。当然这个不是技术瓶颈问题,需要在模型研发完成以后,我需要在服务器做部署,部署完之后支持数以百万计,甚至数以千万计高并发访问的需求,这块属于常态的部分。
未来3-6个月左右的时间,像百度文心、阿里推出类似于ChatGPT的产品应该可以达到目前ChatGPT60%-70%左右的水平。
参考链接:GPT-3.5 + ChatGPT: An illustrated overview
从优缺点的角度简单评价一下ChatGPT吧。
ChatGPT的优点在于其能够生成高质量的文本,并具有出色的语法理解能力和语义理解能力。这使得它能够适用于多种应用场景,例如聊天机器人、问答系统、机器翻译等。
然而,ChatGPT也存在一些缺点。由于它是基于大量文本数据进行训练的,因此它可能会受到数据偏见的影响,导致生成的文本具有偏见性。此外,ChatGPT也不能很好地处理诸如情感分析、推理等复杂任务。还有潜在威胁,如黑客可以利用 ChatGPT的回答教学轻松入侵网络、存在prompt injection问题可泄露信息和可能侵犯知识产权等等问题。
尽管存在一些缺点,ChatGPT仍然是一种非常有前途的技术。它的出色表现和广泛应用场景使其成为人工智能领域内值得关注的一个重要领域。未来,我们可以期待ChatGPT在更多领域得到广泛应用,并在提高生成文本质量、减少数据偏见等方面取得更多进展。直接转NLP了,CV玩不转(doge)
ChatGPT 一个划时代的产品,AI平民化的里程碑
呼~~,终于写完了,接下来要专心备考我的研究生啦,二战路漫漫,小锴常叹叹,祝自己上岸成功,也希望大家各自努力顶峰相见!
笔者水平有限,必定存在问题,欢迎大家交流讨论感谢感谢;
1.ChatGPT: https://chat.openai.com
2.国泰君安证券研究。ChatGPT研究框架(2023)
3.华西证券研究所。ChatGPT: 重新定义搜索“入口”AIGC行业深度报告
4.ChatGPT and the Model Behind
5.Illustrating Reinforcement Learning from Human Feedback (RLHF)
6.How ChatGPT Works: The Model Behind The Bot
7.ChatGPT、LLM 和 Foundation 模型——仔细研究炒作和对初创公司的影响
8.ChatGPT发展历程、原理、技术架构详解和产业未来
9.精选的 ChatGPT 演示、工具、文章
10.ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
11.万字长文教你如何做出 ChatGPT
+文章中所有提及的链接
欢迎大家交流,您的点赞关注收藏是对我最大的鼓励噢,本文为博主原创文章,转载请附上原文出处链接和声明。