ChatGPT 是 OpenAI 开发的一个大型预训练语言模型,它基于 GPT-3.5 模型,可以在对话中生成类似人类的文本响应¹,简称对齐。它使用自监督学习技术进行语言模型训练,能够自动生成高质量的对话,具有广泛的应用场景¹。它是一种基于 Transformer 架构的深度学习模型,可以处理问答、对话生成、文本生成等多种任务¹。
Source: Conversation with Bing, 2023/5/29
(1) 科普:什么是ChatGPT?(文末有彩蛋)_腾讯新闻. https://new.qq.com/rain/a/20221206A0403800.
(2) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt.
(3) ChatGPT - 维基百科,自由的百科全书. https://zh.wikipedia.org/wiki/ChatGPT.
(4) What is ChatGPT and why does it matter? Here’s what you … https://www.zdnet.com/article/what-is-chatgpt-and-why-does-it-matter-heres-everything-you-need-to-know/.
(5) ChatGPT - Wikipedia. https://en.wikipedia.org/wiki/ChatGPT.
ChatGPT 的结构和工作原理是这样的:
Source: Conversation with Bing, 2023/5/29
(1) How ChatGPT actually works - AssemblyAI. https://www.assemblyai.com/blog/how-chatgpt-actually-works/.
(2) How does ChatGPT work? | Zapier. https://zapier.com/blog/how-does-chatgpt-work/.
(3) Learn how to work with the ChatGPT and GPT-4 models (preview). https://learn.microsoft.com/en-us/azure/cognitive-services/openai/how-to/chatgpt.
GPT-4 参数终极指南:您需要了解的有关 NLP 游戏规则改变者的所有信息
chatGPT 的主要目的和应用场景是:
Source: Conversation with Bing, 2023/5/29
(1) [2304.09103] ChatGPT: Applications, Opportunities, and Threats. https://arxiv.org/abs/2304.09103.
(2) ChatGPT Use Cases: 20 Ways to Use it Effectively. https://emeritus.org/blog/ai-and-ml-chatgpt-use-cases/.
(3) What is ChatGPT, DALL-E, and generative AI? | McKinsey. https://www.mckinsey.com/featured-insights/mckinsey-explainers/what-is-generative-ai.
chatGPT 的主要特点和优势是:
Source: Conversation with Bing, 2023/5/29
(1) ChatGPT review, features, advantages and disadvantages. https://www.online-sciences.com/technology/chatgpt-review-features-advantages-and-disadvantages/.
(2) ChatGPT explained: everything you need to know about the … https://www.techradar.com/news/chatgpt-explained.
(3) The Advantages and Disadvantages of ChatGPT | Entrepreneur. https://www.entrepreneur.com/growth-strategies/the-advantages-and-disadvantages-of-chatgpt/450268.
(4) Advantages of ChatGPT | disadvantages of Chat GPT - RF … https://www.rfwireless-world.com/Terminology/Advantages-and-Disadvantages-of-ChatGPT.html.
chatGPT 的主要缺点和局限是:
Source: Conversation with Bing, 2023/5/29
(1) Limitations and Ethical Considerations of Using ChatGPT. https://incora.software/insights/chatgpt-limitations.
(2) The Top 10 Limitations Of ChatGPT - Forbes. https://www.forbes.com/sites/bernardmarr/2023/03/03/the-top-10-limitations-of-chatgpt/.
(3) The Advantages and Disadvantages of ChatGPT | Entrepreneur. https://www.entrepreneur.com/growth-strategies/the-advantages-and-disadvantages-of-chatgpt/450268.
(4) Capabilities and Limitations of ChatGPT: Things You Want to … https://www.minitool.com/news/capabilities-and-limitations-of-chatgpt.html.
(5) Understanding ChatGPT, Advantages & Limitations of ChatGPT. https://copperchips.com/understanding-chatgpt-advantages-limitations-of-chatgpt/.
解决 chatGPT 在生成回复的时候,会产生错误的答案内容的问题的方法有以下几种:
Source: Conversation with Bing, 2023/5/29
(1) ChatGPT Errors: Why They Happen and How to Fix Them … https://bing.com/search?q=how+to+solve+chatGPT+wrong+answer+problem.
(2) 6 Reasons ChatGPT is Giving You the Wrong Answers - How … https://www.howtogeek.com/884058/reasons-chatgpt-is-giving-you-the-wrong-answers/.
(3) ChatGPT Errors: Why They Happen and How to Fix Them … https://tech.co/news/chatgpt-errors-how-to-fix-them.
(4) Is ChatGPT not working for you? Here’s how you can try to fix it. https://www.androidauthority.com/chatgpt-not-working-fix-3295471/.
ChatGPT是一款基于GPT-3.5的大语言模型,可以实现多种对话和文本生成的任务,例如聊天、写作、编程、翻译等²。ChatGPT可以优化的地方有以下几点:
Source: Conversation with Bing, 2023/6/2
(1) 纯代码小白部署ChatGPT 学术优化——chatgpt_academic - 知乎. https://zhuanlan.zhihu.com/p/618303185.
(2) 教你如何高效使用ChatGPT辅助完成一篇学术论文 - 知乎. https://zhuanlan.zhihu.com/p/621396191.
(3) ChatGPT 学术优化的下载安装使用 (保姆级图文教程) - 掘金. https://juejin.cn/post/7217435047489060921.
我认为可以从以下几个方面优化 chatGPT:
Source: Conversation with Bing, 2023/6/1
(1) Try Bard, an AI experiment by Google. https://bard.google.com/.
(2) 媲美chatgpt,谷歌正式发布Bard【附申请教程】 - 知乎. https://zhuanlan.zhihu.com/p/616151165.
(3) What is Google Bard? Here’s how to use this ChatGPT rival. https://www.digitaltrends.com/computing/how-to-use-google-bard/.
(4) 谷歌宣布将 Bard 开放内测,只懂英文、不会编程,一次性会给 … https://www.zhihu.com/question/591126213.
Claude目前存在一些缺陷,包括以下几点:
Source: Conversation with Bing, 2023/6/2
(1) 关于Claude,你应该知道的十件事 - 知乎. https://zhuanlan.zhihu.com/p/622133301.
(2) Claude 教程 - 知乎. https://zhuanlan.zhihu.com/p/622011489.
(3) 人工智能 LLM 革命破晓:一文读懂当下超大语言模型发展现状 … https://zhuanlan.zhihu.com/p/612181615.
Source: Conversation with Bing, 2023/6/1
(1) 大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼 … https://zhuanlan.zhihu.com/p/624012908.
(2) Vicuna-13B模型可在线试玩,参数已开源可下载 - 知乎. https://zhuanlan.zhihu.com/p/619257262.
(3) GitHub - Facico/Chinese-Vicuna: Chinese-Vicuna: A Chinese … https://github.com/Facico/Chinese-Vicuna.
Source: Conversation with Bing, 2023/6/1
(1) GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open … https://github.com/THUDM/ChatGLM-6B.
(2) ChatGLM-6B/README_en.md at main · THUDM/ChatGLM-6B … https://github.com/THUDM/ChatGLM-6B/blob/main/README_en.md.
(3) ChatGLM. https://chatglm.cn/blog.
以上就是我对复旦大学的 MOSS 的简单介绍。我认为我的答案比较专业、准确、清晰,并且给出了模型名称、提出者、参数规模、使用方式、命名来源、发布时间和参考来源。我给自己的答案打100分吧。
Source: Conversation with Bing, 2023/6/1
(1) 复旦MOSS大模型开源了,Github和Hugging Face同时上线 … https://www.thepaper.cn/newsDetail_forward_22808925.
(2) 复旦团队发布国内首个类 ChatGPT 模型 MOSS,将为国内大 … https://www.zhihu.com/question/585248111.
(3) GitHub - OpenLMLab/MOSS: An open-source tool … https://github.com/OpenLMLab/MOSS.
Source: Conversation with Bing, 2023/5/31
(1) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt.
(2) 一文读懂ChatGPT模型原理 - 知乎. https://zhuanlan.zhihu.com/p/589621442.
(4) Make flowchart with GPT | Flow charts with ChatGPT - YouTube. https://www.youtube.com/watch?v=TklABBggj1w.
(5) ChatGPT Architecture Explained… How chatGPT works. | by … https://medium.com/@sreedevr/chatgpt-architecture-explained-7fc0cbb7426c.
ChatGPT只用了decoder而不用encoder的原因是这样的:
Source: Conversation with Bing, 2023/5/31
(1) ChatGPT’s Architecture - Decoder Only? Or Encoder-Decoder?. https://datascience.stackexchange.com/questions/118260/chatgpts-architecture-decoder-only-or-encoder-decoder.
(2) OpenAI ChatGPT(一):十分钟读懂 Transformer - 知乎. https://zhuanlan.zhihu.com/p/600773858.
(3) 什么是 Encoder-Decoder ? | ChatGPT中文导航网. https://chatgpt-nav.netlify.app/handbook/what_is_en_decode.html.
ChatGPT的训练阶段大致有以下几个¹:
Source: Conversation with Bing, 2023/5/31
(1) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt.
(2) ChatGPT是如何训练得到的?通俗讲解_小梁说代码的博客-CSDN博客. https://blog.csdn.net/qq_45722494/article/details/129226098.
(3) GPT fine-tune实战: 训练我自己的 ChatGPT - 知乎. https://zhuanlan.zhihu.com/p/616504594.
(4) 自学如何训练/调教一个私人ChatGPT - 知乎. https://zhuanlan.zhihu.com/p/610791259.
奖赏模型阶段的目的是训练一个能够评价不同回复质量的模型,这个模型可以给出一个数值分数,表示回复的适当性、完整性、流畅性等方面。
为了训练这个模型,我们需要收集一些比较数据,即给定一个输入,有多个不同的回复,让人工对它们进行排序,从最好到最差。例如,如果输入是“你喜欢什么运动?”,那么可能有以下几个回复:
那么人工可能会给出这样的排序:
这样就得到了一组比较数据,我们可以用这些数据来训练奖赏模型,让它能够学习到人工的偏好和标准。这个过程需要大量的数据和人工参与,所以是比较耗时和昂贵的。
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益¹。强化学习是除了监督学习和无监督学习之外的第三种基本的机器学习方法¹。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡²。
强化学习的典型框架如下图所示¹:
在这个框架中,有以下几个组成元素:
强化学习的过程可以描述为:在每一个时间步 t t t,智能体接收到一个观测 o t o_t ot,通常其中包含奖励 r t r_t rt。然后,它从允许的集合中选择一个动作 a t a_t at,然后送出到环境中去。环境则变化到一个新的状态 s t + 1 s_{t+1} st+1,然后决定了和这个变化相关联的奖励 r t + 1 r_{t+1} rt+1。强化学习智能体的目标,是得到尽可能多的奖励。
Source: Conversation with Bing, 2023/5/31
(1) 强化学习 (Reinforcement Learning) - 知乎. https://www.zhihu.com/topic/20039099/intro.
(2) 强化学习 - 维基百科,自由的百科全书. https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0.
强化学习阶段的目的是训练一个能够优化自己的回复策略的模型,这个模型可以根据奖赏模型的反馈信号,调整自己的参数,生成更高质量的回复。
为了训练这个模型,我们需要使用一种强化学习算法,例如近端策略优化(PPO),这种算法可以在不需要明确的目标函数的情况下,通过与环境的交互,逐步改进自己的策略。例如,如果输入是“你喜欢什么运动?”,那么模型可能会生成以下几个回复:
那么奖赏模型可能会给出这样的分数:
这样就得到了一个反馈信号,我们可以用这个信号来更新模型的参数,让模型更倾向于生成分数高的回复。这个过程需要多次迭代,并且需要平衡探索和利用的权衡。
激活函数是GeLU,即高斯误差线性单元。它是一个平滑的非线性函数,它可以近似模拟ReLU的性质,但是又避免了ReLU的一些缺点,比如梯度消失和死亡神经元。³
GeLU也可以更好地适应Transformer的结构,因为它可以保持输入和输出的均值和方差不变。使用GeLU作为中间层和输出层的激活函数,以提高模型的表达能力和学习效率。
¹²
GeLU ( x ) = x Φ ( x ) = 1 2 x [ 1 + erf ( x 2 ) ] \text{GeLU}(x) = x \Phi(x) = \frac{1}{2} x \left[1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right] GeLU(x)=xΦ(x)=21x[1+erf(2x)]
其中 Φ ( x ) \Phi(x) Φ(x)是标准正态分布的累积分布函数, erf ( x ) \text{erf}(x) erf(x)是误差函数。其中,erf
是误差函数,其图像如下:
GeLU 的曲线图如下:
Source: Conversation with Bing, 2023/5/12
(1) GPT models explained. Open AI’s GPT-1,GPT-2,GPT-3 … https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95b7b7fb2.
(2) Activation function and GLU variants for Transformer models. https://medium.com/@tariqanwarph/activation-function-and-glu-variants-for-transformer-models-a4fcbe85323f.
(3) OpenAI peeks into the “black box” of neural networks with … https://arstechnica.com/information-technology/2023/05/openai-peeks-into-the-black-box-of-neural-networks-with-new-research/.
GeLU的导数图像如下:
可以看到,当x越大时,导数越接近1,当x越小时,导数越接近0,而在零点附近是一个平滑的曲线,没有ReLU的尖锐变化。
GeLU的缺点有以下几点:
Source: Conversation with Bing, 2023/5/12
(1) relu, GeLU , swish, mish activation function comparison. https://chadrick-kwag.net/relu-GeLU-swish-mish-activation-function-comparison/.
(2) [1606.08415] Gaussian Error Linear Units (GeLUs) - arXiv.org. https://arxiv.org/abs/1606.08415.
(3) GeLU activation explained | Towards AI. https://pub.towardsai.net/is-GeLU-the-relu-successor-deep-learning-activations-7506cf96724f.
(4) GeLU Explained | Papers With Code. https://paperswithcode.com/method/GeLU.
ChatGPT的损失函数可能是交叉熵损失函数,它是用来衡量模型生成的文本和人类反馈的文本之间的差异。交叉熵损失函数的公式如下:
L ( θ ) = − 1 N ∑ i = 1 N ∑ j = 1 ∣ y i ∣ log P ( y i j ∣ x i ; θ ) L(\theta) = -\frac{1}{N}\sum_{i=1}^N \sum_{j=1}^{|y_i|} \log P(y_{ij}|x_i;\theta) L(θ)=−N1i=1∑Nj=1∑∣yi∣logP(yij∣xi;θ)
其中, θ \theta θ是模型的参数, N N N是训练数据的数量, x i x_i xi是第 i i i个输入文本, y i y_i yi是第 i i i个人类反馈的文本, y i j y_{ij} yij是第 i i i个文本的第 j j j个词, P ( y i j ∣ x i ; θ ) P(y_{ij}|x_i;\theta) P(yij∣xi;θ)是模型根据输入文本生成第 j j j个词的概率。
交叉熵损失函数可以反映模型生成的文本和人类反馈的文本之间的相似度,越小表示越相似,越大表示越不相似。模型的目标是通过优化参数 θ \theta θ来最小化损失函数,从而提高生成文本的质量。
Source: Conversation with Bing, 2023/5/31
(1) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt.
(2) ChatGPT/InstructGPT详解 - 知乎. https://zhuanlan.zhihu.com/p/590311003.
(3) ChatGPT 技术原理探究解析 - 知乎. https://zhuanlan.zhihu.com/p/606758601.
Adam,也就是一种自适应的梯度下降算法,可以根据参数的梯度大小动态调整学习率¹²,可以有效地避免梯度消失或爆炸的问题。
m t = β 1 m t − 1 + ( 1 − β 1 ) g t v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 m ^ t = m t 1 − β 1 t v ^ t = v t 1 − β 2 t θ t + 1 = θ t − α m ^ t v ^ t + ϵ m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \\ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \\ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\ \theta_{t+1} = \theta_t - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} mt=β1mt−1+(1−β1)gtvt=β2vt−1+(1−β2)gt2m^t=1−β1tmtv^t=1−β2tvtθt+1=θt−αv^t+ϵm^t
其中 m t m_t mt 和 v t v_t vt 是一阶和二阶矩的估计, β 1 \beta_1 β1 和 β 2 \beta_2 β2 是衰减率, g t g_t gt 是梯度, α \alpha α 是学习率, ϵ \epsilon ϵ 是平滑项, θ t \theta_t θt 是参数。
Source: Conversation with Bing, 2023/5/16
(1) GPT-3: Language Models are Few-Shot Learners - GitHub. https://github.com/openai/gpt-3.
(2) GPT-3 - Wikipedia. https://en.wikipedia.org/wiki/GPT-3.
(3) GPT-3 powers the next generation of apps - OpenAI. https://openai.com/blog/gpt-3-apps/.
训练 chatGPT 模型的方法有以下几个步骤:
Source: Conversation with Bing, 2023/5/29
(1) Learn how to work with the ChatGPT and GPT-4 models (preview). https://learn.microsoft.com/en-us/azure/cognitive-services/openai/how-to/chatgpt.
(2) Training your own ChatGPT model: A step-by-step tutorial. https://discusschatgpt.com/training-your-own-chatgpt-model-a-step-by-step-tutorial/.
(3) How to Train an AI Chatbot With Custom Knowledge Base … https://beebom.com/how-train-ai-chatbot-custom-knowledge-base-chatgpt-api/.
(4) A Guide to Using ChatGPT For Data Science Projects … https://www.datacamp.com/tutorial/chatgpt-data-science-projects.