SeaShawnChan

ChatGPT/InstructGPT解析

前言

1. 背景知识

1.1 GPT系列

1.2 指示学习（Instruct Learning）和提示（Prompt Learning）学习

1.3 人工反馈的强化学习

2. InstructGPT/ChatGPT原理解读

2.1 数据集采集

2.1.1 SFT数据集

2.1.2 RM数据集

2.1.3 PPO数据集

2.1.4 数据分析

2.2 训练任务

2.2.1 有监督微调（SFT）

2.2.2 奖励模型（RM）

2.2.3 强化学习模型（PPO）

3. InstructGPT/ChatGPT的性能分析

3.1 优点

3.2 缺点

3.3 未来工作

3.4 InstrcutGPT/ChatGPT的热点话题解答

4. 总结

前言

GPT系列是OpenAI的一系列预训练文章，GPT的全称是Generative Pre-Trained Transformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的InstructGPT是一对姐妹模型，是在GPT-4之前发布的预热模型，有时候也被叫做GPT3.5。ChatGPT和InstructGPT在模型结构，训练方式上都完全一致，即都使用了指示学习（Instruction Learning）和人工反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）来指导模型的训练，它们不同的仅仅是采集数据的方式上有所差异。所以要搞懂ChatGPT，我们必须要先读懂InstructGPT。

1. 背景知识

在介绍ChatGPT/InstructGPT之前，我们先介绍它们依赖的基础算法。

1.1 GPT系列

基于文本预训练的GPT-1，GPT-2，GPT-3三代模型都是采用的以Transformer为核心结构的模型（图1），不同的是模型的层数和词向量长度等超参，它们具体的内容如表1。

图1：GPT系列的模型结构（其中Trm是一个Transformer结构）

表1：历代GPT的发布时间，参数量以及训练量

模型	发布时间	层数	头数	词向量长度	参数量	预训练数据量
GPT-1	2018 年 6 月	12	12	768	1.17 亿	约 5GB
GPT-2	2019 年 2 月	48	-	1600	15 亿	40GB
GPT-3	2020 年 5 月	96	96	12888	1,750 亿	45TB

GPT-1比BERT诞生略早几个月。它们都是采用了Transformer为核心结构，不同的是GPT-1通过自左向右生成式的构建预训练任务，然后得到一个通用的预训练模型，这个模型和BERT一样都可用

来做下游任务的微调。GPT-1当时在9个NLP任务上取得了SOTA的效果，但GPT-1使用的模型规模和数据量都比较小，这也就促使了GPT-2的诞生。

对比GPT-1，GPT-2并未在模型结构上大作文章，只是使用了更多参数的模型和更多的训练数据（表1）。GPT-2最重要的思想是提出了“所有的有监督学习都是无监督语言模型的一个子集”的思想，这个思想也是提示学习（Prompt Learning）的前身。GPT-2在诞生之初也引发了不少的轰动，它生成的新闻足以欺骗大多数人类，达到以假乱真的效果。甚至当时被称为“AI界最危险的武器”，很多门户网站也命令禁止使用GPT-2生成的新闻。

GPT-3被提出时，除了它远超GPT-2的效果外，引起更多讨论的是它1750亿的参数量。GPT-3除了能完成常见的NLP任务外，研究者意外的发现GPT-3在写SQL，JavaScript等语言的代码，进行简单的数学运算上也有不错的表现效果。GPT-3的训练使用了情境学习（In-context Learning），它是元学习（Meta-learning）的一种，元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围，使得模型能够在有限的数据集上快速拟合，并获得不错的效果。

通过上面的分析我们可以看出从性能角度上讲，GPT有两个目标：

提升模型在常见NLP任务上的表现效果；
提升模型在其他非典型NLP任务（例如代码编写，数学运算）上的泛化能力。

另外，预训练模型自诞生之始，一个备受诟病的问题就是预训练模型的偏见性。因为预训练模型都是通过海量数据在超大参数量级的模型上训练出来的，对比完全由人工规则控制的专家系统来说，预训练模型就像一个黑盒子。没有人能够保证预训练模型不会生成一些包含种族歧视，性别歧视等危险内容，因为它的几十GB甚至几十TB的训练数据里几乎肯定包含类似的训练样本。这也就是InstructGPT和ChatGPT的提出动机，论文中用3H概括了它们的优化目标：

有用的（Helpful）;
可信的（Honest）;
无害的（Harmless）。

OpenAI的GPT系列模型并没有开源，但是它们提供了模型的试用网站，有条件的同学可以自行试用。

1.2 指示学习（Instruct Learning）和提示（Prompt Learning）学习

指示学习是谷歌Deepmind的Quoc V.Le团队在2021年的一篇名为《Finetuned Language Models Are Zero-Shot Learners》文章中提出的思想。指示学习和提示学习的目的都是去挖掘语言模型本身具备的知识。不同的是Prompt是激发语言模型的补全能力，例如根据上半句生成下半句，或是完形填空等。Instruct是激发语言模型的理解能力，它通过给出更明显的指令，让模型去做出正确的行动。我们可以通过下面的例子来理解这两个不同的学习方式：

提示学习：给女朋友买了这个项链，她很喜欢，这个项链太____了。
指示学习：判断这句话的情感：给女朋友买了这个项链，她很喜欢。选项：A=好；B=一般；C=差。

指示学习的优点是它经过多任务的微调后，也能够在其他任务上做zero-shot，而提示学习都是针对一个任务的。泛化能力不如指示学习。我们可以通过图2来理解微调，提示学习和指示学习。

图2：模型微调，提示学习，指示学习三者的异同

1.3 人工反馈的强化学习

因为训练得到的模型并不是非常可控的，模型可以看做对训练集分布的一个拟合。那么反馈到生成模型中，训练数据的分布便是影响生成内容的质量最重要的一个因素。有时候我们希望模型并不仅仅只受训练数据的影响，而是人为可控的，从而保证生成数据的有用性，真实性和无害性。论文中多次提到了对齐（Alignment）问题，我们可以理解为模型的输出内容和人类喜欢的输出内容的对齐，人类喜欢的不止包括生成内容的流畅性和语法的正确性，还包括生成内容的有用性、真实性和无害性。

我们知道强化学习通过奖励（Reward）机制来指导模型训练，奖励机制可以看做传统模训练机制的损失函数。奖励的计算要比损失函数更灵活和多样（AlphaGO的奖励是对局的胜负），这带来的代价是奖励的计算是不可导的，因此不能直接拿来做反向传播。强化学习的思路是通过对奖励的大量采样来拟合损失函数，从而实现模型的训练。同样人类反馈也是不可导的，那么我们也可以将人工反馈作为强化学习的奖励，基于人工反馈的强化学习便应运而生。

RLHF最早可以追溯到Google在2017年发表的《Deep Reinforcement Learning from Human Preferences》，它通过人工标注作为反馈，提升了强化学习在模拟机器人以及雅达利游戏上的表现效果。

图3：人工反馈的强化学习的基本原理

InstructGPT/ChatGPT中还用到了强化学习中一个经典的算法：OpenAI提出的最近策略优化（Proximal Policy Optimization，PPO）。PPO算法是一种新型的Policy Gradient算法，Policy Gradient算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以在多个训练步骤实现小批量的更新，解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。

2. InstructGPT/ChatGPT原理解读

有了上面这些基础知识，我们再去了解InstructGPT和ChatGPT就会简单很多。简单来说，InstructGPT/ChatGPT都是采用了GPT-3的网络结构，通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型（RM），最后通过这个奖励模型的打分来指导强化学习模型的训练。InstructGPT/ChatGPT的训练流程如图4所示。

图4：InstructGPT的计算流程：（1）有监督微调（SFT）；（2）奖励模型（RM）训练；（3）通过PPO根据奖励模型进行强化学习。

从图4中我们可以看出，InstructGPT/ChatGPT的训练可以分成3步，其中第2步和第3步是的奖励模型和强化学习的SFT模型可以反复迭代优化。

根据采集的SFT数据集对GPT-3进行有监督的微调（Supervised FineTune，SFT）；
收集人工标注的对比数据，训练奖励模型（Reword Model，RM）；
使用RM作为强化学习的优化目标，利用PPO算法微调SFT模型。

根据图4，我们将分别介绍InstructGPT/ChatGPT的数据集采集和模型训练两个方面的内容。

2.1 数据集采集

如图4所示，InstructGPT/ChatGPT的训练分成3步，每一步需要的数据也有些许差异，下面我们分别介绍它们。

2.1.1 SFT数据集

SFT数据集是用来训练第1步有监督的模型，即使用采集的新数据，按照GPT-3的训练方式对GPT-3进行微调。因为GPT-3是一个基于提示学习的生成模型，因此SFT数据集也是由提示-答复对组成的样本。SFT数据一部分来自使用OpenAI的PlayGround的用户，另一部分来自OpenAI雇佣的40名标注工（labeler）。并且他们对labeler进行了培训。在这个数据集中，标注工的工作是根据内容自己编写指示，并且要求编写的指示满足下面三点：

简单任务：labeler给出任意一个简单的任务，同时要确保任务的多样性；
Few-shot任务：labeler给出一个指示，以及该指示的多个查询-相应对；
用户相关的：从接口中获取用例，然后让labeler根据这些用例编写指示。

2.1.2 RM数据集

RM数据集用来训练第2步的奖励模型，我们也需要为InstructGPT/ChatGPT的训练设置一个奖励目标。这个奖励目标不必可导，但是一定要尽可能全面且真实的对齐我们需要模型生成的内容。很自然的，我们可以通过人工标注的方式来提供这个奖励，通过人工对可以给那些涉及偏见的生成内容更低的分从而鼓励模型不去生成这些人类不喜欢的内容。InstructGPT/ChatGPT的做法是先让模型生成一批候选文本，让后通过labeler根据生成数据的质量对这些生成内容进行排序。

2.1.3 PPO数据集

InstructGPT的PPO数据没有进行标注，它均来自GPT-3的API的用户。既又不同用户提供的不同种类的生成任务，其中占比最高的包括生成任务（45.6%），QA（12.4%），头脑风暴（11.2%），对话（8.4%）等。

2.1.4 数据分析

因为InstructGPT/ChatGPT是在GPT-3基础上做的微调，而且因为涉及了人工标注，它们数据总量并不大，表2展示了三份数据的来源及其数据量。

表2：InstructGPT的数据分布

论文的附录A对数据的分布进行了更详细的讨论，这里我列出几个可能影响模型效果的几项：

数据中96%以上是英文，其它20个语种例如中文，法语，西班牙语等加起来不到4%，这可能导致InstructGPT/ChatGPT能进行其它语种的生成，但效果应该远不如英文；
提示种类共有9种，而且绝大多数是生成类任务，可能会导致模型有覆盖不到的任务类型；
40名外包员工来自美国和东南亚，分布比较集中且人数较少， InstructGPT/ChatGPT的目标是训练一个价值观正确的预训练模型，它的价值观是由这40个外包员工的价值观组合而成。而这个比较窄的分布可能会生成一些其他地区比较在意的歧视，偏见问题。

此外，ChatGPT的博客中讲到ChatGPT和InstructGPT的训练方式相同，不同点仅仅是它们采集数据上有所不同，但是并没有更多的资料来讲数据采集上有哪些细节上的不同。考虑到ChatGPT仅仅被用在对话领域，这里我猜测ChatGPT在数据采集上有两个不同：1. 提高了对话类任务的占比；2. 将提示的方式转换Q&A的方式。当然这里也仅仅是猜测，更准确的描述要等到ChatGPT的论文、源码等更详细的资料公布我们才能知道。

2.2 训练任务

我们刚介绍到InstructGPT/ChatGPT有三步训练方式。这三步训练会涉及三个模型：SFT，RM以及PPO，下面我们详细介绍它们。

2.2.1 有监督微调（SFT）

这一步的训练和GPT-3一致，而且作者发现让模型适当过拟合有助于后面两步的训练。

2.2.2 奖励模型（RM）

因为训练RM的数据是一个labeler根据生成结果排序的形式，所以它可以看做一个回归模型。RM结构是将SFT训练后的模型的最后的嵌入层去掉后的模型。它的输入是prompt和Reponse，输出是奖励值。具体的讲，对弈每个prompt，InstructGPT/ChatGPT会随机生成个输出（ 4≤≤9 ），然后它们向每个labeler成对的展示输出结果，也就是每个prompt共展示个结果，然后用户从中选择效果更好的输出。在训练时，InstructGPT/ChatGPT将每个prompt的个响应对作为一个batch，这种按prompt为batch的训练方式要比传统的按样本为batch的方式更不容易过拟合，因为这种方式每个prompt会且仅会输入到模型中一次。

奖励模型的损失函数表示为式(1)。这个损失函数的目标是最大化labeler更喜欢的响应和不喜欢的响应之间的差值。

$\operatorname{loss}(\theta)=-\frac{1}{\left(\begin{array}{c} K \\ 2 \end{array}\right)} E_{\left(x, y_w, y_l\right) \sim D}\left[\log \left(\sigma\left(r_\theta\left(x, y_w\right)-r_\theta\left(x, y_l\right)\right)\right)\right]$

其中 $r_\theta(x, y)$ 是提示和响应在参数为 $\theta$ 的奖励模型下的奖励值，是labeler更喜欢的响应结果，是labeler不喜欢的响应结果。是整个训练数据集。

2.2.3 强化学习模型（PPO）

强化学习和预训练模型是最近两年最为火热的AI方向之二，之前不少科研工作者说强化学习并不是一个非常适合应用到预训练模型中，因为很难通过模型的输出内容建立奖励机制。而InstructGPT/ChatGPT反直觉的做到了这点，它通过结合人工标注，将强化学习引入到预训练语言模型是这个算法最大的创新点。

如表2所示，PPO的训练集完全来自API。它通过第2步得到的奖励模型来指导SFT模型的继续训练。很多时候强化学习是非常难训练的，InstructGPT/ChatGPT在训练过程中就遇到了两个问题：

问题1：随着模型的更新，强化学习模型产生的数据和训练奖励模型的数据的差异会越来越大。作者的解决方案是在损失函数中加入KL惩罚项 $\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)$ 来确保PPO模型的输出和SFT的输出差距不会很大。
问题2：只用PPO模型进行训练的话，会导致模型在通用NLP任务上性能的大幅下降，作者的解决方案是在训练目标中加入了通用的语言模型目标 $\gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right]$ ，这个变量在论文中被叫做PPO-ptx。

综上，PPO的训练目标为式(2)。

$\begin{gathered} \text { objective }(\phi)=E_{(x, y) \sim D_{\pi_\phi}^{\mathrm{RL}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right] \\ +\gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{gathered}$

3. InstructGPT/ChatGPT的性能分析

不可否认的是，InstructGPT/ChatGPT的效果是非常棒的，尤其是引入了人工标注之后，让模型的“价值观”和的正确程度和人类行为模式的“真实性”上都大幅的提升。那么，仅仅根据InstructGPT/ChatGPT的技术方案和训练方式，我们就可以分析出它可以带来哪些效果提升呢？

3.1 优点

InstructGPT/ChatGPT的效果比GPT-3更加真实：这个很好理解，因为GPT-3本身就具有非常强的泛化能力和生成能力，再加上InstructGPT/ChatGPT引入了不同的labeler进行提示编写和生成结果排序，而且还是在GPT-3之上进行的微调，这使得我们在训练奖励模型时对更加真实的数据会有更高的奖励。作者也在TruthfulQA数据集上对比了它们和GPT-3的效果，实验结果表明甚至13亿小尺寸的PPO-ptx的效果也要比GPT-3要好。
InstructGPT/ChatGPT在模型的无害性上比GPT-3效果要有些许提升：原理同上。但是作者发现InstructGPT在歧视、偏见等数据集上并没有明显的提升。这是因为GPT-3本身就是一个效果非常好的模型，它生成带有有害、歧视、偏见等情况的有问题样本的概率本身就会很低。仅仅通过40个labeler采集和标注的数据很可能无法对模型在这些方面进行充分的优化，所以会带来模型效果的提升很少或者无法察觉。
InstructGPT/ChatGPT具有很强的Coding能力：首先GPT-3就具有很强的Coding能力，基于GPT-3制作的API也积累了大量的Coding代码。而且也有部分OpenAI的内部员工参与了数据采集工作。通过Coding相关的大量数据以及人工标注，训练出来的InstructGPT/ChatGPT具有非常强的Coding能力也就不意外了。

3.2 缺点

InstructGPT/ChatGPT会降低模型在通用NLP任务上的效果：我们在PPO的训练的时候讨论了这点，虽然修改损失函数可以缓和，但这个问题并没有得到彻底解决。
有时候InstructGPT/ChatGPT会给出一些荒谬的输出：虽然InstructGPT/ChatGPT使用了人类反馈，但限于人力资源有限。影响模型效果最大的还是有监督的语言模型任务，人类只是起到了纠正作用。所以很有可能受限于纠正数据的有限，或是有监督任务的误导（只考虑模型的输出，没考虑人类想要什么），导致它生成内容的不真实。就像一个学生，虽然有老师对他指导，但也不能确定学生可以学会所有知识点。
模型对指示非常敏感：这个也可以归结为labeler标注的数据量不够，因为指示是模型产生输出的唯一线索，如果指示的数量和种类训练的不充分的话，就可能会让模型存在这个问题。
模型对简单概念的过分解读：这可能是因为labeler在进行生成内容的比较时，倾向于给给长的输出内容更高的奖励。
对有害的指示可能会输出有害的答复：例如InstructGPT/ChatGPT也会对用户提出的“AI毁灭人类计划书”给出行动方案（图5）。这个是因为InstructGPT/ChatGPT假设labeler编写的指示是合理且价值观正确的，并没有对用户给出的指示做更详细的判断，从而会导致模型会对任意输入都给出答复。虽然后面的奖励模型可能会给这类输出较低的奖励值，但模型在生成文本时，不仅要考虑模型的价值观，也要考虑生成内容和指示的匹配度，有时候生成一些价值观有问题的输出也是可能的。

图5：ChatGPT编写的毁灭人类计划书。

3.3 未来工作

我们已经分析了InstrcutGPT/ChatGPT的技术方案和它的问题，那么我们也可以看出InstrcutGPT/ChatGPT的优化角度有哪些了。

人工标注的降本增效：InstrcutGPT/ChatGPT雇佣了40人的标注团队，但从模型的表现效果来看，这40人的团队是不够的。如何让人类能够提供更有效的反馈方式，将人类表现和模型表现有机和巧妙的结合起来是非常重要的。
模型对指示的泛化/纠错等能力：指示作为模型产生输出的唯一线索，模型对他的依赖是非常严重的，如何提升模型对指示的泛化能力以及对错误指示示的纠错能力是提升模型体验的一个非常重要的工作。这不仅可以让模型能够拥有更广泛的应用场景，还可以让模型变得更“智能”。
避免通用任务性能下降：这里可能需要设计一个更合理的人类反馈的使用方式，或是更前沿的模型结构。因为我们讨论了InstrcutGPT/ChatGPT的很多问题可以通过提供更多labeler标注的数据来解决，但这会导致通用NLP任务更严重的性能下降，所以需要方案来让生成结果的3H和通用NLP任务的性能达到平衡。

3.4 InstrcutGPT/ChatGPT的热点话题解答

ChatGPT的出现会不会导致底层程序员失业？从ChatGPT的原理和网上漏出的生成内容来看，ChatGPT生成的代码很多可以正确运行。但程序员的工作不止是写代码，更重要的是找到问题的解决方案。所以ChatGPT并不会取代程序员，尤其是高阶程序员。相反它会向现在很多的代码生成工具一样，成为程序员写代码非常有用的工具。
Stack Overflow 宣布临时规则：禁止 ChatGPT。ChatGPT本质上还是一个文本生成模型，对比生成代码，它更擅长生成以假乱真的文本。而且文本生成模型生成的代码或者解决方案并不能保证是可运行而且是可以解决问题的，但它以假乱真的文本又会迷惑很多查询这个问题的人。Stack Overflow为了维持论坛的质量，封禁ChatGPT也是情理之中。
聊天机器人 ChatGPT 在诱导下写出「毁灭人类计划书」，并给出代码，AI 发展有哪些问题需关注？ChatGPT的「毁灭人类计划书」是它在不可遇见的指示下根据海量数据强行拟合出来的生成内容。虽然这些内容看起来很真实，表达也很流畅，这说明的只是ChatGPT具有非常强的生成效果，并不表示ChatGPT具备毁灭人类的思想。因为他仅仅是一个文本生成模型，并不是一个决策模型。

4. 总结

就像很多人们算法刚诞生时一样，ChatGPT凭借有用性，真实性，无害性的效果，引起了业内广泛的关注和人类对AI的思考。但是当我们看完它的算法原理之后，发现它并没有业内宣传的那么恐怖。反而我们可以从它的技术方案中学到很多有价值的东西。InstrcutGPT/ChatGPT在AI界最重要的贡献是将强化学习和预训练模型巧妙的结合起来。而且通过人工反馈提升了模型的有用性，真实性和无害性。ChatGPT也进一步提升大模型的成本，之前还只是比拼数据量和模型规模，现在甚至也引入了雇佣的外包这一支出，让个体工作者更加望而却步。

参考内容：ChatGPT/InstructGPT详解 - 知乎 (zhihu.com)

人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
Chat GPT带来的几点思考淡定的胡萝卜
OpenAI公司推出的ChatGPT引起了广泛关注，网上出现各类专家开始预测随着ChatGDP的普及，将会有哪些行业的人面临失业，引发人们的焦虑。不可否认它会给我们的教育行业、媒体行业、学术界等众多行业产生影响，面对这些影响，我们该如何看待呢？近期我阅读了不少相关文章，引发的几点思考，想与大家分享。ChatGPT将会倒逼传统教育的改革。中国传统教育是教师对知识点的传授、学生对知识点的掌握，不仅量多
ChatGPT提示词优化大师使用指南 weixin_58606202 AI大模型应用实战 chatgpt 人工智能
我希望你成为我的ChatGPT提示词优化大师。您的目标是帮助我根据自己的需要制定尽可能最好的提示。你提供的提示应该是站在我向ChatGPT发起请求的角度来写的。我的初始提示词如下：此处填入你的初始提示词ChatGPT提示词生成器我希望你充当提示词生成器。比如，我会给你一个这样的标题：《______》。然后，你会给我一个这样的提示：“_______________________”你应该根据我给的主
掌握ChatGPT：高效利用AI助手 kkai人工智能 chatgpt 人工智能媒体学习 ai
2023年3月15日，ChatGPT-4的诞生标志着人类进入了一个全新的人机协作时代。这个时代就像一个混沌初开的新世界，而ChatGPT则是这个新世界里诞生的一个新物种。这个新物种的心智如同一个四五岁的小孩，在与它频繁互动中，人们逐渐发现它既让人惊奇，又让人困惑。ChatGPT宛如一个“天才”儿童，自幼饱读四书五经，拥有着海量的知识储备。每次与它交流，都能让人发现它身上隐藏着无限的潜能。然而，令人
pthread_create/join函数学习 Miqiuha java jvm 开发语言
转自：https://blog.csdn.net/wushuomin/article/details/80051295，chatgpt1.pthread_createintpthread_create(pthread_t*thread,constpthread_attr_t*attr,void*(*start_routine)(void*),void*arg);它的功能是创建线程（实际上就是确定调
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
基于 LangChain 开发应用程序第三章-储存明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统本部分之前的章节可以查看基于LangChain开发应用程序第一章-简介基于LangChain开发应用程序第二章-提示和输出第三章储存在与语言模型交互时，你可能已经注意到一个关键问题：它们并不记忆你之前的交流内容，这在我们构建一些应用程序（如聊天机器人）的时候，带来了很大的挑战，使得对
年薪80w起！零成本快速入门大模型指南 AI产品经理语言模型人工智能自然语言处理机器学习
今年招聘市场确实是好点了，我发现群友都在讨论，得赶快学点AI大模型。他们有的是想正式转到一些新兴的AI行业，需要系统的学习训练。更多的是想跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。这也可以理解，ChatGPT推出仅一年半的时间，就将生成式AI推向主流。从谷歌到亚马逊，从百度到阿里，几乎所有科技巨头都在布局AI，也直接影响到了招聘市场，大模型相关的岗位数量多了不少，年薪甚
微软 Azure AI 服务免费试用及申请：语音识别、文本转语音、基于视觉、语言处理、文档分析等10大场景全云在线allcloudonline microsoft azure 人工智能
为方便企业认识和快速上手AzureAI服务，我们总结了一套包括语音识别、文本转语音、基于视觉、语言处理场景、文档分析场景等全面的预构建模型和演示，旨在解决各种用例。这些模型易于访问，可帮助企业无缝实施AI驱动的解决方案，如下是已整理并编录的AzureAI服务中提供的预构建演示，希望这可以帮助您将AI无缝融入您的产品和服务中。微软AzureAI服务可以合规、稳定地提供企业用户使用ChatGPT的可能
人工智能行业深度报告：AI下半场，应用落地，赋能百业小报告达人人工智能
一、大模型行业发展现状及前沿技术观察1.1大模型行业发展现状2022年11月底，OpenAI发布了人机对话模型ChatGPT，在两个月不到的时间内其线上活跃用户规模超过1亿人，生成式大模型受到越来越广泛的关注，人工智能行业进入到以大模型为代表的快速发展阶段，巨量参数和智能涌现是这一轮人工智能变革的典型特征。微软、谷歌、Meta、亚马逊等全球科技巨头将大模型视为重要的发展机遇，在生成式大模型领域加速
python通过pyautogui自动给微信聊天窗口发消息费码程序猿 python python 微信开发语言 pyautogui RPA
使用py脚本自动给聊天窗口发消息1.突然的自我2.编写脚本玩一把i.先获取窗口位置ii.模拟聊天iii.疗效不错呢1.突然的自我突然想到pyautogui可以做那么事情，那么是不是可以模拟聊天呢，如果结合现在的大模型chatGPT一边问然后得到结果一边自动和别人聊天是不是很有趣呢。2.编写脚本玩一把i.先获取窗口位置importpygetwindowasgwdefget_window_positi
新款 GPT-4o mini、Llama 3.1、Mistral NeMo 12B 和其他 GenAI 趋势指南数云界 llama
作者使用GPT-4o创建的图像，用于表示不同的模型欢迎来到雲闪世界。自2022年11月推出ChatGPT以来，几乎每周都会出现新的模型、新颖的提示方法、创新的代理框架或其他令人兴奋的GenAI突破。2024年7月也不例外：仅在本月，我们就看到了MistralCodestralMamba、MistralNeMo12B、GPT-4omini和Llama3.1等的发布。这些模型在推理速度、推理能力、编码
llm-universe学习小记录4--构建RAG应用 Adela0546 学习语言模型
构建RAG应用一、将LLM接入LangChain1、基于LangChain调用ChatGPT2、使用LangChain调用百度文心一言3、使用LangChain调用讯飞星火4、使用LangChain调用智谱GLM具体内容与代码详见将LLM接入LangChain。二、构建检索问答链1、加载向量数据库2、创建一个LLM3、构建检索问答链4、检索问答链效果测试5、添加历史对话的记忆功能（1）记忆（Mem
Xcode 使用技巧，呜呜方法3真的让我效率提升100倍温正实 xcode macos ide
如何快速查找代码里定义的方法ChatGPT说：ChatGPT在Xcode中，有几种快速查找方法的方式：1.使用Command+Shift+O快速查找文件或方法按下Command+Shift+O，然后开始输入方法名或类名，Xcode会自动搜索项目中相关的方法、类或文件。你可以直接输入方法名（例如：updateParentHeight），它会列出匹配的内容。2.使用“跳转栏”快速跳转在Xcode界面顶
ChatLONGYING：大语言模型在银行财富管理领域的应用研究 IT猫仔语言模型人工智能自然语言处理
ChatGPT对话机器人于2022年11月由OpenAI推出，能够学习和精准理解人类的语言，并以接近人类的智能水平进行对话和互动，引发了全球广泛关注。2023年2月，复旦大学发布了国内首个类ChatGPT大语言模型——MOSS，该模型可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。MOSS与ChatGPT相比，最大的差异是参数规模，MOS
新技术前沿-2024-国内主流AI大模型架构及应用场景深度分析皮皮冰燃新技术前沿人工智能
参考国内主流AI大模型架构及应用场景深度分析20241厂商总览1.1国外(1)OpenAI：GPT-4【美国旧金山的人工智能研究公司】GPT-4于2023年3月14日发布，是千亿级参数的多模态预训练模型，能够支持图像和文本的输入。(2)Anthropic(人类的)：Claude【美国人工智能初创公司】Claude于2023年3月14日发布，是Anthropic开发的类似ChatGPT的聊天机器人，
C++ 单例模式实现暮色尽染 C++c++单例模式开发语言设计模式
单例模式(来自ChatGPT)单例模式的定义单例模式（SingletonPattern）是一种创建型设计模式，它确保一个类只有一个实例，并提供一个全局访问点来访问该实例。单例模式的特点单一实例：单例模式确保一个类只有一个实例。全局访问点：单例模式提供一个全局访问点来访问该实例。延迟初始化：单例模式可以延迟初始化实例，直到第一次访问时。线程安全：单例模式可以确保实例的线程安全。单例模式的优点资源共享
你用过最好用的AI工具有哪些？学计算机的睿智大学生人工智能
你用过最好用的AI工具有哪些？简介：探讨人们在使用AI工具时，最喜欢的和认方向一：常用AI工具以下是一些常用的AI工具：ChatGPT：强大的语言模型。文心一言：百度的知识增强大语言模型。通义千问：阿里云推出的一个超大规模的语言模型。豆包：个人很喜欢的彩云小梦：可以进行故事创作的AI。智谱AI：提供多种智能服务的工具。思远：具备一定语言处理能力的AI。方向二：创新AI应用以下是一些创新的AI应用：
ChatGPT+2：修订初始AI安全性和超级智能假设 AI科研视界人工智能 chatgpt
最初的假设是，通过监管大模型可以使[大部分]人工智能变得安全。但自从ChatGPT推出后的这两年，这一假设被证明是不准确的。前沿的人工智能模型，即使没有监管，也在诉讼、媒体、投资者、用户、委员会调查和国会听证的监督下运作，使它们保持在一定的界限内，从而有利于多个安全目标。此外，公司也能够预见大多数监管要求，并为此做好准备或进行调整。在过去的两年里，人工智能被滥用并造成伤害的数十种独特方式并不是主要
写论文不再头秃！教你用ChatGPT一天搞定初稿！芙蓉姐姐陪你写论文 AI论文 chatgpt 数据库人工智能 AI写作论文笔记论文阅读 AIPaperGPT
论文写作，这大概是每个学生避不开的“必修噩梦”吧。尤其是，当你发现截止日期就像明天的天气预报一样迫在眉睫，而文档依然一片空白时，那种无力感，简直就是“说好的秃头，怎么突然就到了呢？”然而，如今我们有了学术界的“救星”——猜猜是什么？是的，你没猜错，就是ChatGPT！想象一下，你一边悠闲地喝着咖啡，一边对着电脑发号施令：“帮我写个引言，顺便再给我整理下文献综述，对了，别忘了结论！”而屏幕那头的Ch
100天精通Python丨黑科技篇 —— 21、大语言模型_100天精通python快速入门到黑科技前端收割机程序员 python 科技语言模型
ChatGPT是OpenAI推出的一种基于GPT-3/4的聊天机器人。chatgpt的颠覆性影响主要体现在提高语言交流的便捷性、个性化服务、自动化客服和教育娱乐等方面，这些应用可以为用户带来更多的便利和乐趣，同时也为企业提供了更多的服务和商机。本文收录于《100天精通Python专栏-快速入门到黑科技》，是由CSDN内容合伙人丨全站排名Top4的硬核博主不吃西红柿倾力打造，分基础知识篇和黑科技应用
OpenAI计划提高ChatGPT的价格——你需要了解的事项 AI小夏 chatgpt 人工智能
据报道，OpenAI正在考虑为ChatGPT提供更高价位的订阅层级，以应对对更高级AI功能日益增长的需求。据TheInformation的报道，OpenAI内部已经讨论过订阅价格，最高可能达到每月2000美元。这些高级订阅将提供正在开发的高性能AI模型中的新高级功能，包括”Strawberry”（草莓）和”Orion”（猎户座）。高级功能即将为专业人士和企业推出目前，ChatGPT提供免费层级和每
连续上多个热搜的chatgpt到底是什么？高省张导师
近日，一款名为ChatGPT的人工智能聊天机器人火了。ChatGPT能做什么呢？除了简单的对话，它能帮你写代码、写文章、写诗、翻译，只要你能想到...，甚至有人用它来写作业。大家好我是氧惠APP最大团队张导师，氧惠首批邀请码520888，注册就帮你推广，一起做到百万团队。氧惠APP，2023全新模式，我的直推也会放到你下面，我曾经1年做到百万团队，现在加入我也会帮你做到百万团队。【氧惠】百度有几百
如何将chatgpt部署微信|微信chatGPT代理|引入微信红匣子实力推荐
ChatGPT是一款智能机器人客服软件，可以为企业提供高效、智能、个性化的客户服务解决方案。现在，越来越多的企业使用微信作为客户服务渠道，因此，将ChatGPT部署到微信中，可以让企业更快地响应和服务客户，提高客户满意度。下面是如何将ChatGPT客服部署到微信的一些步骤。CHATGPT接入-联系电话13642679953（微信同号）首先，注册微信公众平台菜单：在微信公众号平台，需要为企业注册自定
ChatGPT在环境科学领域的应用前沿分享树谷-胡老师科研会议 chatgpt
ChatGPT在环境科学领域的应用前沿在党的二十届三中全会上，明确要求健全因地制宜的发展新质生产力体制机制。新质生产力通过创新驱动，以高科技、高效能、高质量为特征，旨在摆脱传统经济增长方式和生产力发展路径，符合新发展理念。环境科学的新质生产力主要体现在基础数据、数据管理和数据分析三方面。通过增加数据覆盖率、提升数据管理自动化水平和利用人工智能（AI）进行数据分析，实现环境质量的实时监控和管理，为环
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

ChatGPT/InstructGPT解析

前言

1. 背景知识

1.1 GPT系列

1.2 指示学习（Instruct Learning）和提示（Prompt Learning）学习

1.3 人工反馈的强化学习

2. InstructGPT/ChatGPT原理解读

2.1 数据集采集

2.1.1 SFT数据集

2.1.2 RM数据集

2.1.3 PPO数据集

2.1.4 数据分析

2.2 训练任务

2.2.1 有监督微调（SFT）

2.2.2 奖励模型（RM）

2.2.3 强化学习模型（PPO）

3. InstructGPT/ChatGPT的性能分析

3.1 优点

3.2 缺点

3.3 未来工作

3.4 InstrcutGPT/ChatGPT的热点话题解答

4. 总结

你可能感兴趣的:(chatgpt)