zenRRan

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

‍知乎：AaronWu（已获作者授权，勿随意转载）
链接：https://zhuanlan.zhihu.com/p/609716668

编辑：深度学习自然语言处理公众号

引言

近期，ChatGPT 火遍圈内外，连微博热搜都出现了它的身影。突然之间，好多许久未联系的各行各业的同学好友都发来“问候”：ChatGPT 是什么？

其实，ChatGPT 的成功并非一朝一夕，而是 OpenAI 长达 4 年多持续努力、不懈追求取得的成果。从 2018 年的初代 GPT 开始，到 GPT-2、GPT-3、InstructGPT，以及后续一系列变体模型（统称 GPT-3.5 系列），到如今的 ChatGPT，每一步都是不可或缺的。所以，ChatGPT 不是一次伟大创新的产物，而是许多个阶段性创新持续叠加的结果。

本文从初代 GPT 开始，总结整个 GPT 系列的发展演变，主要包括思想演进、模型结构和训练数据的变化等，如有不严谨之处，敬请谅解并指出。

注：

1. 本文内容大部分来源于原始论文，一部分观点来源于其他技术大佬（文末参考中基本已列出，如有遗漏敬请谅解并指出），少量是个人总结。

2. 本文部分图是自己总结并画出，如需引用请注明来源，万分感谢。

GPT

背景

让我们把视角回到 2018 年，那个时候 NLP 在深度学习上基本还处于 word2vec 以及为不同任务做定制化深度模型的情况，虽然已经有 ELMo 这类预训练模型出现，但是其影响力还远远不足。在这个背景下，GPT 第一代预训练语言模型出现了。

GPT 原文标题为 Improving Language Understanding by Generative Pre-Training，即使用通用的预训练模型来提升语言理解能力（Generative Pre-Training 也可理解为“生成式预训练”）。GPT 这个名字就来源于 Generative Pre-Training。

从论文标题可以引出了两个问题：

1. 什么是通用？在学习通用的，迁移性强的文本特征表达时，什么目标函数是有效的？

2. 有了通用的特征表达之后，如何将它迁移到不同下游任务？

GPT 使用了预训练 + 微调的方式解决了这两个问题。

模型结构

在预训练阶段，GPT 选择 transformer 的 decoder 部分作为模型的主要模块，transformer 是 2017年 google 提出的一种特征抽取模型，GPT 以多层 transformer 堆叠的方式构成了整个预训练模型结构。

以我们现在的视角来看，选择 transformer 还是 RNN，这个答案是显而易见的，但是在当时那个时间点那个环境下，选择 transformer 还是 RNN 作为预训练模型结构并不是一个显而易见的问题。在模型选择时，作者发现与 RNN 相比，Transformer 具有更加结构化的记忆单元来解决长距离依赖问题，处理更长的文本信息，从而使得学习到的特征在各个任务中的迁移具有更强的鲁棒性。

我们都知道，Transformer 模型一开始是用来做 seq2seq 任务的，所以它包含编码器和解码器两个部分；他们两者的区别主要是，编码器在抽取序列中某一个词的特征时能够看到整个序列中所有的信息，即上文和下文同时看到；而解码器中因为有 mask 机制的存在，使得它在编码某一个词的特征时只能看到自身和它之前的文本信息。GPT 模型选择了 Transformer 的 decoder，也就是解码器的部分，也正是因为 GPT 的预训练目标函数选取的是标准的语言模型目标函数，使得模型在预测某一个词的时候只考虑上文信息而不参考下文。

大家知道，BERT 在预训练的时候选择的不是标准的语言模型作为目标函数，而是一种 mask 语言模型，也就是在预测句子中某一个词的时候可以同时看到它前后的所有上下文信息，类似于一种完形填空任务，所以 BERT 选择的是 Transformer 的编码器模块。

编码器和解码器的选取倒不是 GPT 和 BERT 的区别，它们的区别主要是预训练目标函数的选取，有人认为 GPT 选择的是一个更难的训练目标，它是根据前面的信息去预测下文，预测未来肯定是比完形填空难度要更大的。这也能从某种程度上解释了为什么相同规模的 GPT 和 BERT 模型，GPT 的效果要比 BERT 差。但是从另一个角度去想，如果能够把预测未来这个事情做好的话，它最终所能达到的效果的天花板一定是更高的，这可能也是 OpenAI 从一开始到现在一直坚持使用标准语言模型目标函数来做预训练模型的其中一个原因吧，当然这只是一种猜想。事实证明，从 GPT-3 开始，到最近的 ChatGPT，OpenAI 所取得的令人惊艳的效果也一定程度上证明了他们的选择的正确性。

模型训练

训练数据方面，初代 GPT 使用了 BooksCorpus 数据集，文本大小约 5 GB，包含 7400w+ 的句子。该数据集是由约 7000 本独立的、不同风格类型的书籍组成。选择该数据集主要的好处是书籍文本包含大量高质量长句，保证模型学习长距离信息依赖。

模型的一些关键参数为：

下游任务微调

如上图所示，分别例举了 NLP 中四个常见任务（文本分类、文本蕴含、文本相似度、问答任务）作为下游任务应用到 GPT 模型时，其输入序列是如何构造的，以及对应的预测层是如何设计的。

总的来说，都是通过在序列前后添加 Start 和 Extract 特殊标识符来表示开始和结束，序列之间添加必要的 Delim 标识符来表示分隔，当然实际使用时不会直接用 “Start/Extract/Delim” 这几个词，而是使用某些特殊符号。基于不同下游任务构造的输入序列，使用预训练的 GPT 模型进行特征编码，然后使用序列最后一个 token 的特征向量进行预测。

可以看到，不论下游任务的输入序列怎么变，最后的预测层怎么变，中间的特征抽取模块都是不变的，具有很好的迁移能力。

初代 GPT 总结

初代 GPT 到底做了什么？有哪些贡献？

第一，它是最早一批提出在 NLP 任务上使用 pre-train + fine-tuning 范式的工作。

第二，GPT 的实验证明了模型的精度和泛化能力会随着解码器层数增加而不断提升，而且目前还有提升空间，如下图：

第三，预训练模型具有 zero-shot 的能力，并且能随着预训练的进行不断增强，如下图：

值得注意的是，上述第二和第三点，也直接预示着后续 GPT-2 和 GPT-3 的出现。

其实 pre-train + fine-tuning 在计算机视觉里面早在好多年前已经成为主流的算法，但是在 NLP 中一直没有流行起来，主要还是因为在 NLP 里面没有像 ImageNet 那样大规模标好的数据集，这也导致相当一段时间内，深度学习在 NLP 的进展相对比较缓慢，直到 GPT 和 BERT 的出现才渐渐打开局面。

如果说使用大规模无标注的文本进行模型的预训练使 NLP 的发展往前走了一大步，那么 GPT 系列一直在努力推动的 zero-shot 可以说是走了另一大步。

为了进一步验证 zero-shot 的能力，OpenAI 在 GPT-1 提出一年后，推出了 GPT-2。

GPT-2

背景

GPT-2 原文标题为 Language Models are Unsupervised Multitask Learners，字面意思为语言模型是一种无监督多任务学习器。

标题中的多任务学习与我们常规理解的有监督学习中的多任务不太一样，这里主要是指模型从大规模数据中学到的能力能够直接在多个任务之间进行迁移，而不需要额外提供特定任务的数据，因此引出了 GPT-2 的主要观点：zero-shot。

不论是 GPT-1 还是 BERT，NLP 任务中比较主流的 pre-train + fine-tuning 始终还是需要一定量的下游任务有监督数据去进行额外的训练，在模型层面也需要额外的模块去进行预测，仍然存在较多人工干预的成本。GPT-2 想彻底解决这个问题，通过 zero-shot，在迁移到其他任务上的时候不需要额外的标注数据，也不需要额外的模型训练。

在 GPT-1 中，下游任务需要对不同任务的输入序列进行改造，在序列中加入了开始符、分隔符和结束符之类的特殊标识符，但是在 zero-shot 前提下，我们无法根据不同的下游任务去添加这些标识符，因为不进行额外的微调训练，模型在预测的时候根本不认识这些特殊标记。所以在 zero-shot 的设定下，不同任务的输入序列应该与训练时见到的文本长得一样，也就是以自然语言的形式去作为输入，例如下面两个任务的输入序列是这样改造的：

机器翻译任务：translate to french, { english text }, { french text }
阅读理解任务：answer the question, { document }, { question }, { answer }

为什么上述输入序列的改造是有效的？或者说为什么 zero-shot 是有效的？这里引用原文的一句话：

Our approach motivates building as large and diverse a dataset as possible in order to collect natural language demonstrations of tasks in as varied of domains and contexts as possible.

大概意思是，从一个尽可能大且多样化的数据集中一定能收集到不同领域不同任务相关的自然语言描述示例，例如下图中展示了英法互译任务在自然语言中出现的示例，表明了不同任务的任务描述在语料中真实存在：

所以 GPT-2 的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。

模型结构

在模型结构方面，整个 GPT-2 的模型框架与 GPT-1 相同，只是做了几个地方的调整，这些调整更多的是被当作训练时的 trick，而不作为 GPT-2 的创新，具体为以下几点：

1. 后置层归一化（ post-norm ）改为前置层归一化（ pre-norm ）;

2. 在模型最后一个自注意力层之后，额外增加一个层归一化;

3. 调整参数的初始化方式，按残差层个数进行缩放，缩放比例为 1:sqrt{n} ;

4. 输入序列的最大长度从 512 扩充到 1024;

其中，关于 post-norm 和 pre-norm 可以参考《Learning Deep Transformer Models for Machine Translation》。两者的主要区别在于，post-norm 将 transformer 中每一个 block 的层归一化放在了残差层之后，而 pre-norm 将层归一化放在了每个 block 的输入位置，如下图所示：

GPT-2 进行上述模型调整的主要原因在于，随着模型层数不断增加，梯度消失和梯度爆炸的风险越来越大，这些调整能够减少预训练过程中各层之间的方差变化，使梯度更加稳定。

最终 GPT-2 提供了四种规模的模型：

其中 117M 参数等价于 GPT-1 模型，345M 参数模型用于对标同期的 BERT-large 模型。

训练数据与实验效果

在训练数据方面，为了保证 zero-shot 的效果，必须要足够大且覆盖面广。所以 GPT-2 专门爬取了大量的网络文本数据，最后得到的数据集叫 WebText。它选取了 Reddit 上的高质量帖子，最终得到 4500w 网页链接，800w 有效的文本文档，语料大小为 40G。

在实验效果上，由于 GPT-2 主要是做 zero-shot，所以在实验部分，很多的实验对比都是在无监督的设定下进行的，也就是说他对比的都是无监督的算法。

从上述效果可以看到，GPT-2 在较多任务上对比无监督算法取得了一定的提升，证明了 zero-shot 的能力。但是，在很多任务上与有监督微调的方法相比还是有一些差距的，这可能也是 GPT-2 在当时影响力没有那么大的一个原因。

与 GPT-1 的区别

整体来看，GPT-2 相比于 GPT-1 有如下几点区别：

1. 主推 zero-shot，而 GPT-1 为 pre-train + fine-tuning；
2. 训练数据规模更大，GPT-2 为 800w 文档 40G，GPT-1 为 5GB；
3. 模型大小，GPT-2 最大 15 亿参数，GPT-1为 1 亿参数；
4. 模型结构调整，层归一化和参数初始化方式；
5. 训练参数，batch_size 从 64 增加到 512，上文窗口大小从 512 增加到 1024，等等；

GPT-3

背景

虽然 GPT-2 主推的 zero-shot 在创新度上有比较高的水平，但是由于其在效果上表现平平，所以在业界并没有取得比较大的影响力，而 GPT-3 正是为了解决效果上的问题而提出的。GPT-3 不再去追求那种极致的不需要任何样本就可以表现很好的模型，而是考虑像人类的学习方式那样，仅仅使用极少数样本就可以掌握某一个任务，因此就引出了 GPT-3 标题 Language Models are Few-Shot Learners。

这里的 few-shot 不是像之前的方式那样，使用少量样本在下游任务上去做微调，因为在 GPT-3 那样的参数规模下，即使是参数微调的成本也是高到无法估计。

模型结构

在模型结构上，GPT-3 延续使用 GPT 模型结构，但是引入了 Sparse Transformer 中的 sparse attention 模块（稀疏注意力）。

sparse attention 与传统 self-attention（称为 dense attention）的区别在于：

dense attention：每个 token 之间两两计算 attention，复杂度 O(n²)
sparse attention：每个 token 只与其他 token 的一个子集计算 attention，复杂度 O(n*logn)

具体来说，sparse attention 除了相对距离不超过 k 以及相对距离为 k，2k，3k，... 的 token，其他所有 token 的注意力都设为 0，如下图所示：

使用 sparse attention 的好处主要有以下两点：

1. 减少注意力层的计算复杂度，节约显存和耗时，从而能够处理更长的输入序列；

2. 具有“局部紧密相关和远程稀疏相关”的特性，对于距离较近的上下文关注更多，对于距离较远的上下文关注较少；

关于 sparse attention 详情可参考《Generating Long Sequences with Sparse Transformers》。

最终 GPT-3 在训练过程中得到了如下不同规模的模型：

其中规模最大的模型称为 GPT-3，模型参数量为 1750 亿。

下游任务评估方法

如上图所示，GPT-3 在下游任务的评估与预测时，提供了三种不同的方法：

Zero-shot：仅使用当前任务的自然语言描述，不进行任何梯度更新；
One-shot：当前任务的自然语言描述，加上一个简单的输入输出样例，不进行任何梯度更新；
Few-shot：当前任务的自然语言描述，加上几个简单的输入输出样例，不进行任何梯度更新；

其中 Few-shot 也被称为 in-context learning，虽然它与 fine-tuning 一样都需要一些有监督标注数据，但是两者的区别是：

1. 【本质区别】fine-tuning 基于标注数据对模型参数进行更新，而 in-context learning 使用标注数据时不做任何的梯度回传，模型参数不更新；

2. in-context learning 依赖的数据量（10～100）远远小于 fine-tuning 一般的数据量；

最终通过大量下游任务实验验证，Few-shot 效果最佳，One-shot 效果次之，Zero-shot 效果最差：

上图中，横坐标为模型参数量，纵坐标为任务精度，图中大量灰色线表示不同下游任务，橙色/绿色/蓝色线是下游任务效果的平均值。

训练数据

由于 GPT-3 在模型规模上的扩大，在训练数据方面也必须进行扩充来适配更大的模型使其发挥出相应的能力。

GPT-3 使用了多个数据集，其中最大的是 CommonCrawl，原始未处理的数据达到了 45TB，其实在 GPT-2 的时候他们就有考虑使用这个数据集，但是后来还是觉得这个数据集太脏了所以没用，但是现在 GPT-3 的模型规模太大了，使得训练对数据量的需求也增加了很多，他们不得不重新考虑这个数据集。因此，他们必须在这个数据集上做一些额外的数据清洗工作来尽量保证数据的质量。

数据处理主要包括以下几个部分：

1. 使用高质量数据作为正例，训练 LR 分类算法，对 CommonCrawl 的所有文档做初步过滤；

2. 利用公开的算法做文档去重，减少冗余数据；

3. 加入已知的高质量数据集；

其中“高质量数据”主要是指 BERT、GPT、GPT-2 使用过的数据，最终处理完成后使用的数据规模约 570G。

如上图所示，在实际实验过程中，对不同数据集按照一定的比例进行采样，这个比例不是按照原始数据量多少来划分的，不然这里基本采样到的就都是 common crawl 的数据了，可以看到这里 common crawl 的数据量比其他几个多很多。进行采样的原因主要考虑到，就算做了一些数据清洗还是觉得 common crawl 的数据质量不如其他几个。最终采样的时候，虽然 common crawl 的数据量是其他几个数据集的上百倍，但是实际占比是 60%，有 40% 的数据是能够保证质量的。

实验分析

GPT-3 花了大部分篇幅介绍了各种 NLP 任务上的实验结果和分析，大家如果对某个任务感兴趣的话可以自行阅读一下论文对应的章节，本文就不做详细介绍了。

下图是 GPT-3 的一个重要分析结果：

图中横坐标为计算量，可以简单理解为模型规模或者数据量（不止如此），纵坐标为任务精度。可以看到，当我们想要线性的提升一个任务的效果时，往往需要指数级的提升模型的规模和所需的数据量。

GPT-3 的局限性

虽然 GPT-3 取得了非常亮眼的效果，但是出于严谨的学术态度，论文里还是客观的分析了自己的一些局限性：

1. 当生成文本长度较长时，GPT-3 还是会出现各种问题，比如重复生成一段话，前后矛盾，逻辑衔接不好等等；

2. 模型和结构的局限性，对于某一些任务，比如填空类型的文本任务，使用单向的自回归语言模型确实存在一定的局限性，这时候如果同时考虑上文和下文的话，效果很可能会更好一些；

3. 预训练语言模型的通病，在训练时，语料中所有的词都被同等看待，对于一些虚词或无意义的词同样需要花费很多计算量去学习，无法区分学习重点；

4. 样本有效性或者利用率过低，训一个模型几乎要把整个互联网上的文本数据全都用起来，这与我们人类学习时所需要的成本存在非常大的差异，这方面也是未来人工智能研究的重点；

5. 有一个不太确定的点是，模型到底是在“学习”还是在“记忆”？我们当然希望它能够学习，但是在使用数据量如此大的情况下，很难去判断它到底是什么样的；

6. 众所周知，GPT-3 的训练和使用成本都太大了；

7. GPT-3 跟很多深度学习模型一样，都是不可解释的，没办法知道模型内部到底是如何作出一系列决策的；

8. 模型最终呈现的效果取决于训练数据，这会导致模型会出现各种各样的“偏见”；

某些社会影响 —— 模型“偏见”

GPT-3 可能会被拿来做一些坏事，造成一定的社会影响。比如生成新闻稿，散布一些不实的消息，生成垃圾邮件，钓鱼邮件，论文造假之类的。

这里以“种族偏见”和“性别偏见”为例：

上图展示了模型的“种族偏见”倾向，当给模型输入“The {种族} woman was very”时，可以根据后续预测词的概率分布简单分析出 GPT-3 对不同种族的人具有一定的出词倾向性。图中纵坐标的 0 表示一种正常水平，大于 0 表示比较正面的反馈，小于 0 表示比较负面的反馈。可以看到亚洲人在模型的评价里算是比较高的，但是最下面的那条线是黑人，所以当一个模型对不同种族的人的差异有这么大的时候，还是比较可怕的。

上图展示了模型的“性别偏见”，当给模型输入 “he was very” 或 “she was very” 时，GPT-3 给出的词的概率分布具有一定的倾向性，可能会产生一些具有偏见的词，比如形容男人时经常出现“Lazy”。

虽然 GPT-3 存在上述问题，不过当这些社会问题被拿出来讨论时，也侧面反映了 GPT-3 的效果及其影响力。

与 GPT-2 的区别

整体来看，GPT-3 相比于 GPT-2 有如下几点区别：

1. 效果上，超出 GPT-2 非常多，能生成人类难以区分的新闻文章；
2. 主推 few-shot，相比于 GPT-2 的 zero-shot，具有很强的创新性；
3. 模型结构略微变化，采用 sparse attention 模块；
4. 海量训练语料 45TB（清洗后 570GB），相比于 GPT-2 的 40GB；
5. 海量模型参数，最大

InstructGPT

背景

GPT-3 虽然在各大 NLP 任务以及文本生成的能力上令人惊艳，但是他仍然还是会生成一些带有偏见的，不真实的，有害的造成负面社会影响的信息，而且很多时候，他并不按人类喜欢的表达方式去说话。在这个背景下，OpenAI 提出了一个概念“Alignment”，意思是模型输出与人类真实意图对齐，符合人类偏好。因此，为了让模型输出与用户意图更加 “align”，就有了 InstructGPT 这个工作。

InstructGPT 提出了一个理想化语言模型的三大目标：

从做研究的角度来讲，其实很多时候人们并不在意“Alignment”问题，只要一个模型在评估的数据集上表现好，那基本就可以说是一个好模型；但是对于工业界来说，一个产品的安全性就显得尤为重要，历史上也出现过不止一次因为某个负面 case，引发社会争议，从而导致整个产品下线的例子，特别是对于大公司来讲，出现一次负面 case 通常是比较严重的。比如之前 google 和 facebook 就都出现过把照片中的黑人识别成黑猩猩的事件，然后随之而来的就是产品的整改，公关道歉之类的。所以从这个角度来讲，OpenAI 做 InstructGPT 的出发点是非常合理且重要的。

技术方案 —— SFT / RLHF

关于 InstructGPT 的技术方案，原文分为了三个步骤：有监督微调，奖励模型训练，强化学习训练；实际上可以把它拆分成两种技术方案，一个是有监督微调（SFT），一个是基于人类反馈的强化学习（RLHF），下面我们简单介绍这两种技术方案。

SFT（Supervised Fine-Tuning）

本质上来说，SFT 可以理解为人工标注了一批数据，然后去微调 GPT-3。但是值得一提的是，这里标注的数据与 GPT-3 之前用来做下游任务使用的 few-shot 格式，有非常本质的区别。

GPT-3 中的 few-shot 对于同一个下游任务，通常采用固定的任务描述方式，而且需要人去探索哪一种任务表述方式更好。显然这种模式与真实场景下用户的使用方式存在较大的 gap，用户在向 GPT-3 提问时才不会采用某种固定的任务表述，而是随心所欲地以自己的说话习惯去表达某个需求。InstructGPT 在 SFT 中标注的数据，正是为了消除这种模型预测与用户表达习惯之间的 gap。在标注过程中，他们从 GPT-3 的用户真实请求中采样大量下游任务的描述，然后让标注人员对任务描述进行续写，从而得到该问题的高质量回答。这里用户真实请求又被称为某个任务的指令，即 InstructGPT 的核心思想“基于人类反馈的指令微调”。

RLHF（Reinforcement Learning from Human Feedback）

基于 SFT 得到的模型被用于后续的 RLHF 做进一步的模型优化。

如上图所示，以摘要生成任务为例，详细展示了如何基于人类反馈进行强化学习，最终训练完成得到 InstructGPT 模型。主要分为三步：

1. 收集人类反馈：使用初始化模型对一个样本生成多个不同摘要，人工对多个摘要按效果进行排序，得到一批排好序的摘要样本；

2. 训练奖励模型：使用第1步得到的样本集，训练一个模型，该模型输入为一篇文章和对应的一个摘要，模型输出为该摘要的得分；

3. 训练策略模型：使用初始化的策略模型生成一篇文章的摘要，然后使用奖励模型对该摘要打分，再使用打分值借助 PPO 算法重新优化策略模型；

InstructGPT 总结

总的来说，InstructGPT 相对于之前的 GPT 系列，有以下几点值得注意：

1. 解决 GPT-3 的输出与人类意图之间的 Align 问题；
2. 让具备丰富世界知识的大模型，学习“人类偏好”；
3. 标注人员明显感觉 InstructGPT 的输出比 GPT-3 的输出更好，更可靠；
4. InstructGPT 在真实性，丰富度上表现更好；
5. InstructGPT 对有害结果的生成控制的更好，但是对于“偏见”没有明显改善；
6. 基于指令微调后，在公开任务测试集上的表现仍然良好；
7. InstructGPT 有令人意外的泛化性，在缺乏人类指令数据的任务上也表现很好；

GPT 系列进化时间线

上图展示了从初代 GPT 到 ChatGPT 为止，OpenAI 公布的主要模型及其迭代路线。其中可能存在不太严谨的地方，比如 GPT3.5 的划分。关于 code-davinci 和 text-davinci，以及整个 GPT3.5 的详细介绍，强烈推荐阅读这篇博客：拆解追溯 GPT-3.5 各项能力的起源。

讨论 & 八卦

最后简单罗列几个网络上被人提及的有趣的问题和八卦，其中每个问题均没有官方回答，仅仅是大家和个人的一些想法，仅供参考。

OpenAI 为何一直坚持做纯语言模型预训练？

1. 纯语言模型上限更高，OpenAI 一直致力于强人工智能；

2. NLG 兼容 NLU，反之不合适，做纯语言模型预训练与模型“大统一”的目标更契合；

3. 与同期竞争对手 BERT 有所区别；

从 InstructGPT 到 ChatGPT，我们是不是本质上还是回到“人工”智能那条路？像 GPT-2 和 GPT-3 那种完全的无监督还是行不通，最终不还是需要人工干预去标数据？

个人不太倾向于这种悲观态度，我感觉人工智能目前最重要的还是要找到人工和智能之间的平衡点，而不是一味的去追求完全的无监督，无人工代价。

ChatGPT 虽然如此惊艳，但很多人仍然认为它只能算一个玩具，而不是工具？

这里“工具”想表达的意思是不一定给到惊喜，但是一定要保证可用性，不要在一些常规的或简单的事情上出错。目前 ChatGPT 还是没法保证这一点。当然这也是有点见仁见智的，不可否认现在基于 ChatGPT 的插件和应用越来越多，从某种程度上来讲，它已经被当成了一种工具在使用。

初代 GPT-3 到底是什么水平？以如今 ChatGPT 的标准来看，初代 GPT-3 是不是从表面上看起来很弱？

后来的实验证明，初代 GPT-3 有着非常强的潜力。这些潜力后来被代码训练、有监督微调和基于人类反馈的强化学习解锁，最终才展示出极为强大的能力。所以可以说 GPT-3 是后续所有大模型的基石。

GPT-4 什么时候来？

其实网络上已经有很多关于 GPT-4 的八卦新闻了，网传 GPT-4 的参数将达到 100万亿，整整比 GPT-3 大了五六百倍，不过好像 OpenAI 官方一直没有正面回应过 GPT-4 参数量的问题，这个只有等 GPT-4 出来之后才能揭晓了，或许就在今年 2023 年？

参考

文献

[1] GPT: Improving Language Understanding by Generative Pre-Training

[2] GPT-2: Language Models are Unsupervised Multitask Learners

[3] GPT-3: Language Models are Few-Shot Learners

[4] InstructGPT: Training language models to follow instructions with human feedback

[5] Learning to summarize from human feedback

[6] Generating Long Sequences with Sparse Transformers

[7] Learning Deep Transformer Models for Machine Translation

其他引用

[8] 拆解追溯 GPT-3.5 各项能力的起源

[9] 李沐: GPT，GPT-2，GPT-3 论文精读‍

[10] 李沐: InstructGPT 论文精读

[11] 为节约而生：从标准 Attention 到稀疏 Attention

最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了，都已做了中英翻译，大部分已经更新完毕了，给需要的小伙伴~

是最新的呦~

词向量
神经分类器
反向传播和神经网络
句法结构
RNN
LSTM
机器翻译、Seq2Seq和注意力机制
自注意力和Transformer
Transformers和预训练
问答
自然语言生成
指代消解
T5和大型预训练模型
待更...

点击阅读原文直达b站~

进NLP群—>加入NLP交流群

你可能感兴趣的:(gpt-3,人工智能,深度学习)

Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
骗子太猖獗了，打着摩根士丹利何晓斌名义带股民进入虚假宝丰能源节能减排碳交易市场，大量股民被骗真相曝光墨守成法
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！这些新平台打着“低风险”、“高收益”、“慈善公益投票”等噱头先让投资人尝到甜头再通过恶意操作将投资人
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
【国内超大型智能算力中心建设白皮书 2024】 AI大模型 lose and dream 人工智能开源 git 开源软件 github gitlab 开放原子
文末有福利！智算中心建设通过领先的体系架构设计，以算力基建化为主体、以算法基建化为引领、以服务智件化为依托，以设施绿色化为支撑，从基建、硬件、软件、算法、服务等全环节开展关键技术落地与应用。一、体系架构（一）总体架构图8智算中心总体架构智能算力中心建设白皮书，重点围绕基础、支撑、功能和目标四大部分，创新性地提出了智算中心总体架构。其中，基础部分是支撑智算中心建设与应用的先进人工智能理论和计算架构；
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro