唐伯虎点·蚊香

2020版初代GPT-3与大规模预训练

ChatGPT Road Map（from yao.fu）

英文原文：https://franxyao.github.io/blog.html

最近，OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问，它又强又聪明，且跟它说话很好玩，还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。

于是，我们自然就有一个问题：ChatGPT 是怎么变得这么强的？它的各种强大的能力到底从何而来？
在这篇文章中，我们试图剖析 ChatGPT 的突现能力（Emergent Ability），追溯这些能力的来源，希望能够给出一个全面的技术路线图，来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。

我们希望这篇文章能够促进大型语言模型的透明度，成为开源社区共同努力复现 GPT-3.5 的路线图。

致国内的同胞们：

在国际学术界看来，ChatGPT / GPT-3.5 是一种划时代的产物，它与之前常见的语言模型 (Bert/ Bart/T5) 的区别，几乎是导弹与弓箭的区别，一定要引起最高程度的重视。
在我跟国际同行的交流中，国际上的主流学术机构 (如斯坦福大学，伯克利加州大学) 和主流业界研究院（如谷歌大脑，微软研究院）都已经全面拥抱大模型。
在当前这个阶段，国内的技术水准、学术视野、治学理念和国际前沿的差距似乎并没有减少，反而正在扩大，如果现状持续下去，极有可能出现技术断代。
此诚危急存亡之秋。

多年以后，面对行刑队，奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。 —— 《百年孤独》加西亚·马尔克斯

1、2020版初代GPT-3与大规模预训练

初代GPT-3展示了三个重要能力：

**语言生成：**遵循提示词（prompt），然后生成补全提示词的句子 (completion)。这也是今天人类与语言模型最普遍的交互方式。
上下文学习 (in-context learning): 遵循给定任务的几个示例，然后为新的测试用例生成解决方案。很重要的一点是，GPT-3虽然是个语言模型，但它的论文几乎没有谈到“语言建模” (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上，这才是 GPT-3的真正重点。
**世界知识 (world knowledge)：**包括事实性知识 (factual knowledge) 和常识 (commonsense)。

那么这些能力从何而来呢？

基本上，以上三种能力都来自于大规模预训练：在有3000亿单词的语料上预训练拥有1750亿参数的模型（训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia）。其中：

语言生成的能力来自于语言建模的训练目标 (language modeling)。
世界知识来自 3000 亿单词的训练语料库（不然还能是哪儿呢）。
模型的 1750 亿参数是为了存储知识，Liang et al. (2022) 的文章进一步证明了这一点。他们的结论是，知识密集型任务的性能与模型大小息息相关（https://crfm.stanford.edu/helm/v1.0/?group=knowledge）。
上下文学习的能力来源及为什么上下文学习可以泛化，**仍然难以溯源。**直觉上，这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。然而，很少有人研究为什么语言模型预训练会促使上下文学习，以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。

令人好奇的是，初代的GPT-3有多强。

其实比较难确定初代 GPT-3（在 OpenAI API 中被称为davinci）到底是“强”还是“弱”。一方面，它合理地回应了某些特定的查询，并在许多数据集中达到了还不错的性能；另一方面，它在许多任务上的表现还不如 T5 这样的小模型（参见其原始论文）。
在今天（2022 年 12 月）ChatGPT 的标准下，很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型试图复现初代 GPT-3，但它的能力与当今的标准也形成了尖锐的对比。许多测试过 OPT 的人也认为与现在的text-davinci-002相比，该模型确实 “不咋地”。尽管如此，OPT 可能是初代 GPT-3 的一个足够好的开源的近似模型了（根据 OPT 论文和斯坦福大学的 HELM 评估）。

虽然初代的 GPT-3 可能表面上看起来很弱，但后来的实验证明，初代 GPT-3 有着非常强的潜力。这些潜力后来被代码训练、指令微调 (instruction tuning) 和基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF) 解锁，最终体展示出极为强大的突现能力。

2、从2020版GPT-3到2022版ChatGPT

从最初的 GPT-3 开始，为了展示 OpenAI 是如何发展到ChatGPT的，我们看一下 GPT-3.5 的进化树：

2020 年 7 月，OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文（Brown. et. al. 2020. Language Models are Few-Shot Learners），从此它就开始不断进化。
2021 年 7 月，Codex 的论文（Chen et. al. 2021. Evaluating Large Language Models Trained on Code）发布，其中初始的 Codex 是根据（可能是内部的）120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的code-cushman-001。在 2022 年 3 月，OpenAI 发布了指令微调 (instruction tuning)（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）的论文，其监督微调 (supervised instruction tuning) 的部分对应了davinci-instruct-beta和text-davinci-001。
2022 年 4 月至 7 月，OpenAI 开始对code-davinci-002模型进行 Beta 测试，也称其为 Codex。然后code-davinci-002、text-davinci-003和ChatGPT 都是从code-davinci-002进行指令微调得到的。详细信息请参阅 OpenAI的模型索引文档（https://beta.openai.com/docs/model-index-for-researchers）。

尽管 Codex 听着像是一个只管代码的模型，但code-davinci-002可能是最强大的针对自然语言的GPT-3.5 变体（优于 text-davinci-002和 -003）。code-davinci-002很可能在文本和代码上都经过训练，然后根据指令进行调整（将在下面解释）。
2022 年 5-6 月发布的text-davinci-002是一个基于code-davinci-002的有监督指令微调 (supervised instruction tuned) 模型。在text-davinci-002上面进行指令微调很可能降低了模型的上下文学习能力，但是增强了模型的零样本能力（将在下面解释）。
然后是text-davinci-003和 ChatGPT，它们都在 2022 年 11 月发布，是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了（但仍然比code-davinci-002差）一些在text-davinci-002 中丢失的部分上下文学习能力（大概是因为它在微调的时候混入了语言建模）并进一步改进了零样本能力（得益于RLHF）。另一方面，ChatGPT 似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。

总的来说，在 2020 - 2021 年期间，在code-davinci-002之前，OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。当他们完成code-davinci-002时，所有的能力都已经存在了。很可能后续的指令微调，无论是通过有监督的版本还是强化学习的版本，都会做以下事情（稍后会详细说明）：

指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级（基础的能力是通过预训练注入的）。
指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习，如text-davinci-003，有些更擅长对话，如ChatGPT。
指令微调通过牺牲性能换取与人类的对齐（alignment）。OpenAI 的作者在他们的指令微调论文（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）中称其为 “对齐税” (alignment tax)。许多论文（比如：Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them/Chung et. al. 2022. Scaling Instruction-Finetuned Language Models等）都报道了code-davinci-002在基准测试中实现了最佳性能（但模型不一定符合人类期望）。在code-davinci-002上进行指令微调后，模型可以生成更加符合人类期待的反馈（或者说模型与人类对齐），例如：零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。

3、Code-Davinci-002和Text-Davinci-002在代码上训练，在指令上微调

在code-davinci-002和text-davinci-002之前，有两个中间模型，分别是 davinci-instruct-beta 和 text-davinci-001。两者在很多方面都比上述的两个-002模型差（例如，text-davinci-001 链式思维推理能力不强（参见附录中的图8 https://arxiv.org/pdf/2201.11903v1.pdf））。所以我们在本节中重点介绍 -002 型号。

3.1 复杂推理能力的来源和泛化到新任务的能力

我们关注code-davinci-002和text-davinci-002，这两兄弟是第一版的 GPT3.5 模型，一个用于代码，另一个用于文本。它们表现出了三种重要能力与初代 GPT-3 不同的能力：

**响应人类指令：**以前，GPT-3 的输出主要训练集中常见的句子。现在的模型会针对指令 / 提示词生成更合理的答案（而不是相关但无用的句子）。
**泛化到没有见过的任务：**当用于调整模型的指令数量超过一定的规模时，模型就可以自动在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署至关重要，因为用户总会提新的问题，模型得答得出来才行。
**代码生成和代码理解：**这个能力很显然，因为模型用代码训练过。
**利用思维链 (chain-of-thought) 进行复杂推理：**初代 GPT3 的模型思维链推理的能力很弱甚至没有。 code-davinci-002 和 text-davinci-002 是两个拥有足够强的思维链推理能力的模型。
- 思维链推理之所以重要，是因为思维链可能是解锁突现能力和超越缩放法则 (scaling laws) 的关键。请参阅上一篇博文（https://yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686f68a1abd72f）。

这些能力从何而来？

与之前的模型相比，两个主要区别是指令微调和代码训练。具体来说：

能够响应人类指令的能力是指令微调的直接产物。
对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的，T0（Sanh. et. al. Oct 2021. Multitask Prompted Training Enables Zero-Shot Task Generalization）、Flan（Wei et. al. Sep 2021. Finetuned Language Models Are Zero-Shot Learners）和 FlanPaLM（Chung et. al. Oct 2022. Scaling Instruction-Finetuned Language Models）论文进一步证明了这一点。
使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。对此，我们有以下的事实作为一些支持：
- 最初的 GPT-3 没有接受过代码训练，它不能做思维链。
- text-davinci-001 模型，虽然经过了指令微调，但第一版思维链论文（第一个版本(https://arxiv.org/pdf/2201.11903v1.pdf) 报告了davinci在GSM8K上的准确率 12.4 v.s. 第五个版本 (https://arxiv.org/pdf/2201.11903v5.pdf) 报告了 code-davinci-002 准确率为 63.1）报告说，它的它思维链推理的能力非常弱 —— 所以指令微调可能不是思维链存在的原因，代码训练才是模型能做思维链推理的最可能原因。
- PaLM（Chowdhery et. al. Apr. 2022. PaLM: Scaling Language Modeling with Pathways）有 5% 的代码训练数据，可以做思维链。
- Codex论文（Chen et. al. Jul 2021. Evaluating Large Language Models Trained on Code）中的代码数据量为 159G ，大约是初代 GPT-3 5700 亿训练数据的28%。code-davinci-002 及其后续变体可以做思维链推理。
- 在 HELM 测试中，Liang et al. (2022) （Liang et. al. Nov 2022. Holistic Evaluation of Language Models）对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力，包括 120亿参数的code-cushman-001.。
- 我们在 AI2 的工作（Fu et. al. Oct 2022. Complexity-based Prompting for Multi-Step Reasoning. https://openreview.net/forum?id=yf1icZHC-l9）也表明，当配备复杂的思维链时，code-davinci-002 在 GSM8K 等重要数学基准上是目前表现最好的模型
- 直觉来说，面向过程的编程 (procedure-oriented programming) 跟人类逐步解决任务的过程很类似，面向对象编程 (object-oriented programming) 跟人类将复杂任务分解为多个简单任务的过程很类似
- 以上所有观察结果都是代码与推理能力 / 思维链之间的相关性。代码和推理能力 / 思维链之间的这种相关性对研究社区来说是一个非常有趣的问题，但目前仍未得到很好的理解。然而，仍然没有确凿的证据表明代码训练就是CoT和复杂推理的原因。思维链的来源仍然是一个开放性的研究问题。
此外， 代码训练另一个可能的副产品是长距离依赖，正如Peter Liu（https://twitter.com/peterjliu/status/1603098202856722432?s=46&t=Gw2wumo4l8kIRaGzXDXyRw）所指出：“语言中的下个词语预测通常是非常局部的，而代码通常需要更长的依赖关系来做一些事情，比如前后括号的匹配或引用远处的函数定义”。这里我想进一步补充的是：由于面向对象编程中的类继承，代码也可能有助于模型建立编码层次结构的能力。我们将对这一假设的检验留给未来的工作。

另外还要注意一些细节差异：

text-davinci-002 与 code-davinci-002
- Code-davinci-002 是基础模型，text-davinci-002 是指令微调 code-davinci-002 的产物（见 OpenAI 的文档（https://beta.openai.com/docs/model-index-for-researchers））。它在以下数据上作了微调：（一）人工标注的指令和期待的输出；（二）由人工标注者选择的模型输出。
- 当有上下文示例 (in-context example) 的时候， Code-davinci-002 更擅长上下文学习；当没有上下文示例 / 零样本的时候， text-davinci-002 在零样本任务完成方面表现更好。从这个意义上说，text-davinci-002 更符合人类的期待（因为对一个任务写上下文示例可能会比较麻烦）。
- OpenAI 不太可能故意牺牲了上下文学习的能力换取零样本能力 —— 上下文学习能力的降低更多是指令学习的一个副作用，OpenAI 管这叫对齐税。
001 模型（code-cushman-001 和 text-davinci-001）v.s. 002 模型（code-davinci-002 和 text-davinci-002）
- 001 模型主要是为了做纯代码 / 纯文本任务；002 模型则深度融合了代码训练和指令微调，代码和文本都行。
- Code-davinci-002 可能是第一个深度融合了代码训练和指令微调的模型。证据有：code-cushman-001 可以进行推理但在纯文本上表现不佳，text-davinci-001 在纯文本上表现不错但在推理上不大行。code-davinci-002 则可以同时做到这两点。

3.2 这些能力是在预训练之后已经存在还是在之后通过微调注入？

在这个阶段，我们已经确定了指令微调和代码训练的关键作用。一个重要的问题是如何进一步分析代码训练和指令微调的影响？具体来说：

上述三种能力是否已经存在于初代的GPT-3中，只是通过指令和代码训练触发 / 解锁？或者这些能力在初代的 GPT-3 中并不存在，是通过指令和代码训练注入？

如果答案已经在初代的 GPT-3 中，那么这些能力也应该在 OPT 中。因此，要复现这些能力，或许可以直接通过指令和代码调整 OPT。但是，code-davinci-002 也可能不是基于最初的 GPT-3 davinci，而是基于比初代 GPT-3 更大的模型。如果是这种情况，可能就没办法通过调整 OPT 来复现了。研究社区需要进一步弄清楚 OpenAI 训练了什么样的模型作为 code-davinci-002 的基础模型。

我们有以下的假设和证据：

code-davinci-002的基础模型可能不是初代GPT-3 davinci 模型。以下是证据：
- 初代的GPT-3在数据集 C4 2016 - 2019 上训练，而 code-davinci-002 训练集则在延长到2021年才结束。因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上训练。
- 初代的 GPT-3 有一个大小为 2048 个词的上下文窗口。code-davinci-002 的上下文窗口则为 8192。GPT 系列使用绝对位置嵌入 (absolute positional embedding)，直接对绝对位置嵌入进行外推而不经过训练是比较难的，并且会严重损害模型的性能（参考 Press et al., 2022（Press et. al. 2022. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation））。如果 code-davinci-002 是基于初代GPT-3，那OpenAI 是如何扩展上下文窗口的？
另一方面，无论基础模型是初代的 GPT-3 还是后来训练的模型， 遵循指令和零样本泛化的能力都可能已经存在于基础模型中，后来才通过指令微调来解锁（而不是注入）
- 这主要是因为 OpenAI 的论文（Ouyang et. al. 2022. Training language models to follow instructions with human feedback）报告的指令数据量大小只有 77K，比预训练数据少了几个数量级。
- 其他指令微调论文进一步证明了数据集大小对模型性能的对比，例如 Chung et al. (2022) 的工作中， Flan-PaLM 的指令微调仅为预训练计算的 0.4%。一般来说，指令数据会显著少于预训练数据。
然而，模型的复杂推理能力可能是在预训练阶段通过代码数据注入
- 代码数据集的规模与上述指令微调的情况不同。这里的代码数据量足够大，可以占据训练数据的重要部分（例如，PaLM 有 8% 的代码训练数据）
- 如上所述，在 code-davinci-002 之前的模型 text-davinci-001 大概没有在代码数据上面微调过，所以它的推理 / 思维链能力是非常差的，正如第一版思维链论文中所报告的那样，有时甚至比参数量更小的 code-cushman-001 还差。
区分代码训练和指令微调效果的最好方法可能是比较 code-cushman-001、T5 和 FlanT5
- 因为它们具有相似的模型大小（110亿和 120亿），相似的训练数据集 (C4)，它们最大的区别就是有没有在代码上训练过 / 有没有做过指令微调。
- 目前还没有这样的比较。我们把这个留给未来的研究。

4、text-davinci-003和ChatGPT，基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

在当前阶段（2022 年 12 月）， text-davinci-002、text-davinci-003 和 ChatGPT之间几乎没有严格的统计上的比较，主要是因为：

text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。
ChatGPT 不能通过 OpenAI API 被调用，所以想要在标准基准上测试它很麻烦。

所以在这些模型之间的比较更多是基于研究社区的集体经验 （统计上不是很严格）。不过，我们相信初步的描述性比较仍然可以揭示模型的机制。

我们首先注意到以下 text-davinci-002，text-davinci-003 和 ChatGPT 之间的比较：

所有三个模型都经过指令微调。
text-davinci-002 是一个经过监督学习指令微调 (supervised instruction tuning) 的模型
text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。

这意味着大多数新模型的行为都是 RLHF 的产物。

那么让我们看看 RLHF 触发的能力：

翔实的回应**：** text-davinci-003 的生成通常比text-davinci-002长（https://help.openai.com/en/articles/6779149-how-do-text-davinci-002-and-text-davinci-003-differ）。ChatGPT 的回应则更加冗长，以至于用户必须明确要求“用一句话回答我”，才能得到更加简洁的回答。这是 RLHF 的直接产物。
公正的回应**：**ChatGPT 通常对涉及多个实体利益的事件（例如政治事件）给出非常平衡的回答。这也是RLHF的产物。
拒绝不当问题**：**这是内容过滤器和由 RLHF 触发的模型自身能力的结合，过滤器过滤掉一部分，然后模型再拒绝一部分。
**拒绝其知识范围之外的问题：**例如，拒绝在2021 年 6 月之后发生的新事件（因为它没在这之后的数据上训练过）。这是 RLHF 最神奇的部分，因为它使模型能够隐式地区分哪些问题在其知识范围内，哪些问题不在其知识范围内。

有两件事情值得注意：

所有的能力都是模型本来就有的， 而不是通过RLHF 注入的。RLHF 的作用是触发 / 解锁突现能力。这个论点主要来自于数据量大小的比较：因为与预训练的数据量相比，RLHF 占用的计算量 / 数据量要少得多。
模型知道它不知道什么不是通过编写规则来实现的，而是通过RLHF解锁的。这是一个非常令人惊讶的发现，因为 RLHF 的最初目标是让模型生成复合人类期望的回答，这更多是让模型生成安全的句子，而不是让模型知道它不知道的内容。

幕后发生的事情可能是：

ChatGPT: 通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果，因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈影响。
text-davinci-003：恢复了 text-davinci-002 所牺牲的上下文学习能力（见https://arxiv.org/pdf/2210.11416.pdf的附录D）， 提高零样本的能力（https://help.openai.com/en/articles/6779149-how-do-text-davinci-002-and-text-davinci-003-differ/ https://scale.com/blog/gpt-3-davinci-003-comparison）。 根据instructGPT的论文，这是来自于强化学习调整阶段混入了语言建模的目标（而不是 RLHF 本身）。

5、总结当前阶段 GPT-3.5 的进化历程

到目前为止，我们已经仔细检查了沿着进化树出现的所有能力，下表总结了演化路径：

我们可以得出结论：

语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（davinci）
存储大量知识的能力来自 1750 亿的参数量。
遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（Davinci-instruct-beta)
执行复杂推理的能力很可能来自于代码训练（code-davinci-002）
生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说：
- 如果是监督学习版，得到的模型是text-davinci-002
- 如果是强化学习版 (RLHF) ，得到的模型是text-davinci-003
- 无论是有监督还是 RLHF ，模型在很多任务的性能都无法超过 code-davinci-002 ，这种因为对齐而造成性能衰退的现象叫做对齐税。
对话能力也来自于 RLHF（ChatGPT），具体来说它牺牲了上下文学习的能力，来换取：
- 建模对话历史
- 增加对话信息量
- 拒绝模型知识范围之外的问题

6、GPT-3.5 目前不能做什么

虽然GPT-3.5是自然语言处理研究中的重要一步，但它并没有完全包含许多研究人员（包括 AI2）设想的所有理想属性。以下是GPT-3.5不具备的某些重要属性：

**实时改写模型的信念：**当模型表达对某事的信念时，如果该信念是错误的，我们可能很难纠正它：
- 我最近遇到的一个例子是：ChatGPT 坚持认为 3599 是一个质数，尽管它承认 3599 = 59 * 61。另外，请参阅Reddit上关于游得最快的海洋哺乳动物（https://www.reddit.com/r/ChatGPT/comments/zd7l8t/nice/）的例子。
- 然而，模型信念的强度似乎存在不同的层次。一个例子是即使我告诉它达斯·维达（星球大战电影中的人物）赢得了2020年大选，模型依旧会认为美国现任总统是拜登。但是如果我将选举年份改为 2024 年，它就会认为总统是达斯·维达是 2026 年的总统。
**形式推理：**GPT-3.5系列不能在数学或一阶逻辑等形式严格的系统中进行推理：
模型可以很好地进行 (b) 类的带模糊性的推理，例子有：
生成如何做豆腐脑的方法。做豆腐脑的时候，中间很多步骤模糊一点是可以接受的，比如到底是做咸的还是做甜的。只要整体步骤大致正确，做出来的豆腐脑儿就能吃。
数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法，其中每一步的严格推导可以不用太具体。证明思路经常被用到数学教学：只要老师给一个大致正确的整体步骤，学生就可以大概明白。然后老师把具体的证明细节作为作业布置给学生，答案略。
一个例子是严格的数学证明，要求中间步骤中不能跳，不能模糊，不能错。
但这种严格推理到底是应该让语言模型做还是让符号系统做还有待讨论。一个例子是，与其努力让 GPT 做三位数加法，不如直接调 Python。
**从互联网进行检索：**GPT-3.5 系列（暂时）不能直接搜索互联网
但是有一篇 WebGPT（https://openai.com/blog/webgpt/）论文发表于2021年12月，里面就让 GPT 调用了搜索引擎。所以检索的能力已经在 OpenAI 内部进行了测试。
这里需要区分的一点是，GPT-3.5 的两个重要但不同的能力是知识和推理。一般来说，如果我们能够将知识部分卸载到外部的检索系统，让语言模型只专注于推理，这就很不错了。因为：
模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
回想一下，我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外，那么模型参数可能会大大减少，最终它甚至可以在手机上运行（疯狂的想法，但 ChatGPT 已经足够科幻了，谁知道未来会怎样呢).

7、结论

在这篇博文中，我们仔细介绍了GPT-3.5系列的能力范围，并追溯了它们所有突现能力的来源。初代GPT-3模型通过预训练获得生成能力、世界知识和in-context learning。然后通过instruction tuning的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力，作为代码训练的副产品，模型同时潜在地获得了复杂推理的能力。
结合这两个分支，code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐，即对齐税。RLHF 使模型能够生成更翔实和公正的答案，同时拒绝其知识范围之外的问题。

我们希望这篇文章能够帮助提供一个清晰的GPT评估图，并引发一些关于语言模型、instruction tuning和code tuning的讨论。最重要的是， 我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图。

“因为山就在那里。”——乔治·马洛里，珠穆朗玛峰探险先驱

常见问题

这篇文章中的这些说法更像是假设 (hypothesis) 还是结论 (conclusion)？
- 复杂推理的能力来自于代码训练是我们倾向于相信的假设
- 对没有见过的任务泛化能力来自大规模指令学习是至少 4 篇论文的结论
- GPT-3.5来自于其他大型基础模型，而不是1750亿参数的GPT-3是有根据的猜测。
- 所有这些能力都已经存在了，通过instruction tuning，无论是有监督学习或强化学习的方式来解锁而不是注入这些能力是一个强有力的假设，强到你不敢不信。主要是因为instruction tuning数据量比预训练数据量少了几个数量级
- 结论 = 许多证据支持这些说法的正确性；假设 = 有正面证据但不够有力；有根据的猜测 = 没有确凿的证据，但某些因素会指向这个方向
为什么其他模型（如 OPT 和 BLOOM）没有那么强大？
- OPT大概是因为训练过程太不稳定
- BLOOM的情况则未知。如果您有更多意见，请与我联系

你可能感兴趣的:(OpenAI,gpt-3)

什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
Spring AI核心技术面试指南：从大模型集成到生产级部署，9轮深度技术拷问（含架构解析）
面试官：cc程序员，聊聊SpringAI的那些事儿？场景背景互联网大厂AI平台部面试官老周，与自称"SpringAI源码贡献者"的cc程序员展开深度技术探讨。面试过程第一轮：基础架构面试官：SpringAI的架构分层是怎样的？cc：（推眼镜）顶层是Model接口！中间层适配OpenAI/Ollama等实现，底层整合SpringBoot自动配置！@ConfigurationpublicclassOl
从API到Agent：万字洞悉LangChain工程化设计 bpluo42657 langchain
——构建下一代AI应用的核心范式迁移一、传统API范式的局限性：为什么需要Agent？接口式AI的痛点python#传统NLPAPI调用示例response=openai.Completion.create(model="text-davinci-003",prompt="请翻译：Helloworld",max_tokens=50)单次请求/响应模式缺乏状态管理与上下文延续硬编码逻辑难以应对复杂场
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
开源模型应用落地-OpenAI Agents SDK-集成多个MCP Servers与Qwen3-8B模型的创新应用探索（九）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术迅猛发展的今天，如何让AI代理更高效地理解和操作外部资源成为行业关注的焦点。模型上下文协议（MCP）应运而生，作为一项由Anthropic推出的开源标准，它为AI系统提供了一种统一的方式来发现、检索和理解数据。与此同时，OpenAIAgents通过支持多种MCP服务器的集成，为开发者提供了更大的灵活性和扩展性。结合强大的Qwen3-8B模型，其不仅具备快速响应的能力，还能在复
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
IMO怒斥OpenAI自封夺金，网友：炒作无下限计算机科研圈资讯人工智能
OpenAI高调宣布其新模型在国际数学奥林匹克（IMO）中获得金牌，引发了轩然大波。然而，短短24小时内，剧情急转直下——多位IMO官方人士和学界大佬纷纷发声，直指OpenAI的做法“粗鲁且不恰当”。这不仅是一场关于AI能力的辩论，更牵扯出学术道德、商业炒作与人类选手尊严的深层次问题。让我们从多方视角，还原这场争议的真相。一、OpenAI的急不可耐，激怒了IMO官方7月19日，IMO闭幕式刚刚结束
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
「Tokens是胡扯」？Mamba作者炮轰Transformer，揭秘AI模型致命缺陷 | AI早报未来世界2099 AI日报人工智能 transformer 深度学习业界资讯
1、OpenAI疯狂挖角反击！Meta华人科学家+马斯克三员大将集体跳槽2、清华&NTU突破性研究：仅需2张图，AI即可重构3D空间认知3、极智嘉港股上市首日破发！清华系机器人公司市值153亿引关注4、星海图融资超1亿美金！美团、今日资本领投，估值暴涨3倍5、华人团队用RL打造AIAgent，种子轮狂揽1200万美元融资6、Skywork-R1V3.0震撼开源：高考数学142分，多学科推理能力直逼
兜兜转转，我又开始研究 Windows 系统
刚毕业那会，软件开发几乎只有Windows这一条路。那时，DOS已被Windows完全取代，苹果公司深陷低谷、摇摇欲坠；Linux还在襁褓之中，只是极客们手中的玩物。至于Android和iOS，那更是遥不可及——那是诺基亚称王的时代，手机还在拼铃声、换外壳。随着移动互联网浪潮到来，谷歌、苹果、Facebook等崛起，微软渐渐淡出媒体焦点。进入AI时代后，人们的视线更多投向OpenAI这样的“新锐明
GPT-4o mini TTS：领先的文本转语音技术桂花饼 AIGC GPT-4o o4-mini 语音识别人工智能 GPT-4o
什么是GPT-4ominiTTS？GPT-4ominiTTS是OpenAI推出的全新一代文本转语音（TTS）技术，能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构，GPT-4ominiTTS在语音合成中避免了传统TTS的生硬与机械感，能够生成富有情感和个性化表达的高质量语音。该技术支持多语言与多口音，是视频、播客、电子学习等场景的理想选择。核心特点自然流畅，接近真人GPT-4om
创客匠人：你做了那么多内容，为什么用户一来就走？老蒋新思维创始人IP 内容运营知识变现知识付费
上周看到一条新闻让我陷入沉思OpenAI联合微软和美国教师联盟，投资超过2亿美元，培训40万名老师如何使用AI做教学设计、内容评估、互动反馈。很多教育工作者因此实现了效率大幅提升，甚至可以在一周内设计出完整的教学路径。可你有没有发现，同样的“AI+内容”的浪潮，正在逼近我们这些做知识付费的人。你可能花了几个月时间搭建课程体系，录了几十个视频，也做了海报、社群、预热活动。你说：“我真的很努力了。”但
前端开发好用的AI工具介绍爱分享的程序员人工智能AI相关人工智能
以下是前端开发中提升效率的AI工具推荐，涵盖代码生成、UI设计、调试优化等场景：一、代码生成与辅助工具工具名称特点适用场景GitHubCopilot基于OpenAI，智能代码补全（支持JS/TS/React/Vue）快速生成代码片段、函数逻辑Codeium免费开源，多语言支持，IDE插件丰富（VSCode/WebStorm）代码补全、注释生成AmazonCodeWhispererAWS生态集成，支
Rust+ChatBoxAI：实战
ChatboxAIChatboxAI是一款基于人工智能技术的智能助手工具，旨在通过自然语言交互帮助用户完成多种任务。以下是其核心功能与特点：功能概述多模型支持：可连接OpenAI、Claude、Gemini等主流大语言模型，用户能自由切换不同AI服务。本地运行：支持离线使用，数据隐私性较强，适合敏感信息处理场景。跨平台兼容：提供Windows、macOS和Linux客户端，同步支持移动端应用。核心
电商新风口：实时视频直播模型MirageLSD震撼发布！| AI日报未来世界2099 AI日报人工智能大模型 MirageLSD
应用1、OpenAI重磅推出ChatGPTAgent！智能体时代正式开启，浏览器将被AI接管2、00后天才团队震撼发布！全球首个A股金融博弈智能体应用横空出世3、KimiPlayground震撼上线：AI助手进化成"全能工具王"，开发者狂欢开启4、MistralAI聊天机器人LeChat大升级：语音交互+深度研究+图像编辑三连击5、Slack掀起AI办公革命：聊天自动总结、术语秒懂、工作流一键自动
Open AI在AI人工智能领域的创新之路 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能 ai
OpenAI在AI人工智能领域的创新之路关键词：OpenAI、人工智能、创新之路、技术突破、应用场景摘要：本文深入探讨了OpenAI在AI人工智能领域的创新之路。首先介绍了OpenAI的背景信息，包括其成立目的、发展历程等。接着详细阐述了OpenAI的核心概念，如强化学习、生成式对抗网络等，并通过示意图和流程图展示其原理和架构。然后讲解了相关核心算法原理，结合Python代码进行具体说明。同时，给
GPT-4和Claude哪个好姜暮儿人工智能
选择GPT-4还是Claude？这就像在问“苹果还是橙子哪个更好”——‌答案完全取决于你的具体需求‌。两者都是顶尖大语言模型，但各有特色。我为你做了详细对比，帮你快速定位哪个更适合你：核心能力对比特性GPT-4(OpenAI)Claude(Anthropic)‌语言理解/推理‌顶尖水平，尤其擅长逻辑推理、代码生成极强，注重自然语言流畅性‌长文本处理‌上下文最大128Ktokens，但实际效果不如C
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署 Liudef06小白 AIGC 人工智能特殊专栏人工智能魔搭 AIGC LLM
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署1.AIGC技术演进与魔搭社区生态解析人工智能生成内容（AIGC）正在重塑内容创作、软件开发和人机交互的边界。从OpenAI的GPT系列到StabilityAI的StableDiffusion，生成式AI技术正以惊人的速度发展。在这场技术革命中，魔搭社区（ModelScope）作为中国领先的AI模型开源平台，正成为开发者探索AI
【面试必背】RAG技术全面解析：从原理到实践中的20个关键问题大F的智能小课人工智能语言模型 python
大家好，我是大F，深耕AI算法十余年，互联网大厂核心技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。【专栏介绍】：欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！【大模型篇】更多阅读：【大模型篇】万字长文从OpenAI到DeepSeek：大模型发展趋势及原理解读【大模型篇】目前主流AI大模型体系全解析：架构、特点与应用【大模型篇】Gro
解密Claude系列：从原理到实践的全方位解析软考和人工智能学堂强化学习人工智能 Claude快速入门 Claude
引言：Claude系列模型的崛起在人工智能领域，大型语言模型(LLM)的发展日新月异。OpenAI的GPT系列和Anthropic的Claude系列无疑是这一领域的双子星。Claude系列模型以其独特的"ConstitutionalAI"理念和强大的对话能力，正在重塑人机交互的未来。本文将深入探讨Claude系列的技术原理、架构特点，并通过实践代码展示其强大能力。Claude系列的技术演进1.Cl
马斯克整出的半仙儿，Chat GPT会让多少白领失业？可能会带来哪些变化？良辰美景5566
这几天，ChatGPT火了，是美国一家叫OpenAI的高科技公司研发的，背后的投资人是谁？——埃隆马斯克！这哥们儿只要一出手，注定就和新奇呀伟大呀啥的绑在一起了，他搞的项目，比如特斯拉、星链、脑机接口，光听名字就透着不俗。很多人纳闷儿，他这次搞得ChatGPT是个啥玩意儿？简单说就是一个人工智能聊天软件，这个软件比以往的智能聊天软件强在哪儿？这么说吧，这简直就是个半仙儿啊。如果您是一位老人，这个C
详细介绍一下OpenAI的API使用方法 alankuo 人工智能
以下是详细的OpenAIAPI使用方法：获取API密钥访问OpenAI官方网站（https://platform.openai.com/）并注册账号.登录后，点击右上角的个人资料名称或图标，选择“ViewAPIKeys”.在API密钥页面，点击“Createnewsecretkey”来创建新的API密钥，将其妥善保存，因为此密钥仅在生成时显示一次.安装OpenAI库在命令行中使用pipinstal
关于市场主流大模型的系统性整理和分析（必看系列，附汇总表格） GA琥珀 LLM 人工智能语言模型
一、旗舰专有模型生态系统在生成式AI的高端市场，几家公司凭借其强大的研发实力和资本支持，构建了以旗舰专有模型为核心的生态系统。它们通过API和订阅服务提供最先进的功能，引领着技术发展的方向。1.1OpenAI：在位的创新者OpenAI作为行业的先行者，其战略核心是建立一道“性能护城河”。通过持续发布性能领先（且价格高昂）的模型，锁定那些愿意为顶级能力支付溢价的用户和企业。其快速的迭代周期旨在使其始
CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界 AI专题精讲强化学习人工智能强化学习 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界摘要中等规模的大型语言模型（LLMs），如参数量为7B或13B的模型，在机器翻译（MT）任务中展现出良好性能。然而，它们仍未能达到最先进的传统编码器-解码器翻译模型，或是如GPT-4（OpenAI,2023）等更大规模LLM的表现。在本研究中，我们致力于弥合这一性能差距。我们首先评估了在机器翻译任
NFL的React GPT项目使用指南吕岚伊
NFL的ReactGPT项目使用指南一、项目目录结构及介绍ReactGPT是由NFL团队开发的一个尝试性项目，旨在创建一个自主的React开发者工具，利用AI辅助进行React代码的生成与修改。以下是本项目的主要目录结构和各部分功能简介：├──env#环境变量配置文件所在目录│└──.env#存放OPENAI_API_KEY等敏感信息的环境变量文件├──example#可能包含示例代码或配置的目录
OpenAI 再放大招！Codex：云端 AI 编程助手，可自动执行编写功能代码 LinkTime_Cloud 人工智能
近日，OpenAI正式发布了一款颠覆性的云端代码智能体——Codex。这一工具不仅能够生成代码，还能通过自然语言指令完成包括错误修复、代码审查、拉取请求提交等全流程开发任务，标志着AI从辅助工具向自动化协作伙伴的跨越。Codex的推出，不仅是技术上的里程碑，更是对软件开发行业工作模式的革命性挑战。Codex的核心功能与技术创新1.多任务并行处理能力Codex可在独立的云端沙盒环境中同时处理多项任务
OpenWebUI系列之如何通过docker自动将其更新到OpenWebUI最新版本知识大胖 NVIDIA GPU和大语言模型开发教程 docker llm openwebui
实战需求OpenWebUI是一个可扩展、功能丰富且用户友好的自托管WebUI，旨在完全离线运行。它支持各种LLM运行器，包括Ollama和OpenAI兼容API。如何通过docker自动将其更新到OpenWebUI最新版本？系列文章《OpenWebUI系列之如何通过docker更新到OpenWebUI的最新版本》权重0，本地类、opewebui类《OpenWebUI系列之如何通过docker自动将
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户