数据拾光者

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

导读：本文是“数据拾光者”专栏的第二十篇文章，这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本文主要分享本篇主要介绍了GPT系列模型，主要包括GPT、GPT-2和GPT-3。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。欢迎转载，转载请注明出处以及链接，更多关于自然语言处理、推荐系统优质内容请关注如下频道。知乎专栏：数据拾光者

公众号：数据拾光者

摘要：本文是广告系列第二十篇，主要介绍了GPT系列模型的发展流程。首先介绍了NLP中超强但不秀的GPT模型。GPT属于典型的预训练+微调的两阶段模型，将Transformer作为特征抽取器，使用单向语言模型，属于NLP中非常重要的工作，同时还介绍了GPT模型下游如何改造成不同的NLP任务；然后介绍了有点火的GPT-2。相比于GPT来说GPT-2使用了更多更好的训练数据，同时直接使用无监督的方式来完成下游任务；最后介绍了巨无霸GPT-3。相比于GPT-2，GPT-3直接把模型的规模做到极致，使用了45TB的训练数据，拥有175B的参数量，真正诠释了暴力出奇迹。GPT-3模型直接不需要微调了，不使用样本或者仅使用极少量的样本就可以完成下游NLP任务，尤其在很多数据集中模型的效果直接超越了最好效果的微调模型，真正帮助我们解决了下游任务需要标注语料的问题。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。

下面主要按照如下思维导图进行学习分享：

01 NLP中超强但不秀的GPT模型

1.1 从Word2vec到GPT

GPT(“Generative Pre-Training”)也叫生成式预训练模型，之所以说它超强但不秀的原因是作为NLP中极有价值的工作，比BERT出现的早，但是名声却远远不如BERT那么响亮。这里顺便提一下NLP领域从Word2vec模型到GPT和BERT模型的推进流程帮小伙伴们更加深入的理解这个问题。下面是Word2vec、ELMO、GPT和BERT之间的关系图：

图1 Word2vec、ELMO、GPT和BERT之间的关系图

NLP领域首先要解决的是文本的表示问题。对于计算机来说它并不认识各种稀奇古怪的字符，它只认识0和1，通过One-hot编码我们可以将word转化成01串。但是One-hot编码存在高维稀疏的问题，所以我们将这些01串映射到低维向量空间中，这就是word embedding向量。而Word2vec就是将word映射到向量空间中的标志性模型。

Word2vec将word映射到向量空间中，并且可以根据两个向量的距离长短来表示语义的相似度。但是Word2vec模型存在一个问题，一个word在不同的语句中可能表达不同的语义，但是在Word2vec的向量空间中只有唯一的一个点，所以存在词的歧义性问题。针对这个问题，ELMO模型通过构建双向LSTM网络来获取词编码、句法编码和句义编码三层embedding来动态的表示词的语义，从而很好的解决了词的歧义性问题；接着我们本篇的主角GPT模型就出来了。GPT模型使用Transformer作为特征抽取器，同时使用单向语言模型在NLP各种任务中刷榜成功。相比于ELMO模型来说GPT使用效果更好的Transformer来替代LSTM作为特征抽取器。但是没高兴多久，BERT就出来了。BERT不仅使用Transformer作为特征抽取器，而且使用双向语言模型，刷新了NLP中各种任务的最好效果，很快抢了GPT的风头。可以说BERT和GPT模型最大的区别就是使用了双向语言模型，而BERT论文中的有效因子实验也证明正是使用了双向语言模型才带来的模型效果大量的提升。

图2 BERT有效因子分析实验结果图

1.2 深入理解GPT

虽说GPT的风头被BERT抢了，但是不得不承认GPT是非常重要的NLP工作。要深入理解GPT模型，我们从以下几个方面详细分析：

(1) GPT两阶段模型

GPT是典型的预训练+微调的两阶段模型。预训练阶段就是用海量的文本数据通过无监督学习的方式来获取语言学知识，而微调就是用下游任务的训练数据来获得特定任务的模型。之前举过一个例子来形容预训练和微调的关系，我们从幼儿园到高中就像预训练过程，不断学习知识，这些知识包罗万象包括语数英物化生等等，最重要的特征就是预训练模型具有很好的通用性；然后读大学的时候需要确定一个专业方向作为未来的职业，所以就会去重点学习专业知识，从而让我们成为更加适合某个专业方向的人才，最重要的特征就是具有极强的专业性。通过这个例子大家可以理解预训练模型和微调两阶段的差异和联系。

(2) GTP预训练模型结构

GPT预训练模型结构主要有两个重要的点：一个是使用Transformer作为特征抽取器，另一个是使用单向的语言模型。上面也说了GPT相比于ELMO模型效果更好的原因就是Transformer的特征抽取能力远远强于LSTM，这是非常明智的。后续NLP领域各种亮眼的模型基本上都是使用的Transformer架构，所以说率先将Transformer引入的GPT是非常重要的工作，这也是说它为啥强的原因。想了解更多关于Transformer的细节，小伙伴们可以看看我之前写过的一篇文章：

广告行业中那些趣事系列4：详解从配角到C位出道的Transformer

还有一点就是GPT使用单向语言模型。GPT在预训练的过程中仅仅使用语句中的上文。这里通过一个例子说明上下文的概念。我们现在有一句话：“GPT是预训<>和微调的两阶段模型”。现在我们语言模型的目的是预测“预训”后面跟着的词，那么<>之前的“GPT是预训”就代表上文，而<>之后的“和微调的两阶段模型”就代表下文。GPT使用单向语言模型和BERT使用双向语言模型是它俩最大的区别。这里小提一句，GPT后续系列依然坚持使用单向语言模型。下面是GPT预训练模型的网络结构图：

图3 GPT预训练模型网络结构图

(3) GPT模型下游改造

上面得到GPT预训练模型之后，就可以根据下游任务进行改造和微调了。对于文本分类任务基本不需要怎么变动，只需要添加一个开始符号Start和终止符号Extract就可以了；对于语句包含类任务，需要在前提premise和假设hypothesis中间添加一个连接符号Delim就可以了；对于语句相似关系类任务，需要将句子1和句子2分别调整位置然后添加连接符号Delim拼接就可以了；对于多路问答类任务分别将问题Context和多个答案Answer分别进行拼接作为输入。GPT下游改造如下图所示：

图4 GPT下游改造图

(4) GPT模型效果

GPT模型效果还是非常出色的，12个任务数据集中9个达到了最好效果。下面是GPT论文中模型效果实验图：

图5 GPT模型实验效果图

02 有点火的GPT-2

2.1 GPT-2预训练模型的变化

相比于GPT来说，GPT-2模型的整体结构没有发生太大的变化。预训练过程使用了更多更好的数据进行训练，同时使用了更大更多参数的Transformer。首先是Transformer模型参数扩容。通常的Transformer Big包含24个Block，GPT-2直接使用了48个Block，从而可以保存更多的语言学知识；模型扩容之后就是使用更多更好的数据进行预训练。GPT使用大约5GB文本数据进行预训练，GTP-2直接使用40GB的文本数据进行预训练。GPT-2使用800W互联网网页数据WebText数据集进行预训练。这些数据因为覆盖主题广，所以训练出的模型具有更好的通用性。GPT-2不仅使用了更多的训练数据，而且对数据的质量也进行了筛选，过滤出更高质量的网页内容。

GPT-2还是坚持使用单向语言模型。虽然BERT模型已经证明了效果好的主要原因是使用了双向语言模型，但是GPT-2依然坚持自我使用单向语言模型。这里猜测可能是以下两个原因：其中一个原因是GPT是生成式模型，因为在生成式相关任务场景下一般只能看到上文，所以这种单向语言模型和实际应用场景是对应的。如果使用了下文，那么存在“提前偷看答案”的嫌疑；另一个原因是GPT和BERT模型最大的区别是使用单向语言模型，如果现在换成了双向语言模型，那么GPT模型是否还有存在和发展的必要？这是个人的一点猜测，仁者见仁智者见智。

2.2 GPT-2下游任务的变化

GPT-2没有采用GPT和BERT这种常规的预训练+微调的两阶段模型，而是直接通过无监督的方式去完成下游任务。GPT-2采用这种方式的原因很简单，它想证明预训练使用了更多更好的数据得到的模型可以直接用于下游任务了。现在的问题是GPT-2使用无监督样本做下游任务时如何识别不同的任务类型。GPT-2对于不同类型的任务输入会加入一些引导字符来告诉模型如何正确预测目标。举例来说，假如是文本摘要类任务，那么GPT-2在输入的时候加“TL：DR”作为引导字符告诉模型这是文本摘要类任务。而模型的输出和语言模型是一样的，就是每轮输出一个词。当我们需要模型输出的结果是一句话或者几句话的时候，只需要将每轮输出的词连接起来就是我们想要的结果。GPT-2将所有NLP任务的输出转换成了和语言模型一样的方式，每轮只输出一个词。

2.3 GPT-2的模型效果

GPT-2作为生成式模型来生成文本或者段落的能力是惊人的。通过下面的示例，我们先给出几句话，后面的内容让GPT-2来完成。可以看出，GPT-2生成的内容语法工整，语义一致，效果非常好。下面是GPT-2生成文本的例子：

图6 GPT-2生成文本的示例

小结下，GPT-2相比于GPT来说模型整体的架构基本没有什么变化，还是使用Transformer作为特征抽取器，还是坚持单向语言模型，不同的是使用了更大的模型更多的参数从而能够存储更多的语言学知识，然后使用更多更好的数据去训练模型。对于下游任务直接使用无监督数据去完成任务，主要思想是因为我的预训练模型足够好，所以下游不需要有监督的数据去微调模型了。虽然相比于无监督模型效果好很多，但是相比于有监督模型效果还是差了点。GPT-2模型强有力的证明了使用更大的模型更多的数据是可以有效提升模型的效果。

03 巨无霸GPT-3

3.1 更大的模型，更多的训练数据

最近一段时间GPT-3强力出击，直接引爆NLP领域。如果说GPT-2模型已经足够大了，那么GPT-3已经可以说是爆炸了。先从参数角度看看GPT-3到底有多大。最早的ELMO模型有94M，然后2018年7月GPT出世，模型参数有110M，接着BERT-Large有340M；后来GPT-2出世已经把参数弄到1.5b了；再后来随着Turing NLG的出现直接将参数提升到17b，成为当时最大的模型；最后GPT-3出现了，直接将参数增加到175b，参数量基本上是第二名Turing NLG的十倍。通过这些现象咱们可以看出把模型做大似乎已经成为NLP领域的趋势。有时候费尽心思开发和优化模型，各种花里胡哨的骚操作下来结果发现最后的效果还不如最简单的用更大的模型更多的数据来的有效，这也是为啥那么多人不断去优化预训练模型的原因。下面是NLP领域各种模型参数量对比图：

图7 NLP领域各种模型参数量对比图

接下来咱们从使用训练数据的角度来看GPT-3到底有多大。BERT-Large使用了13G的数据，GPT-2使用了40G的数据，XLNet-Large使用了接近140G数据，之前说过RoBERTa模型能有很好的效果提升其中的一个重要原因是使用了将近176G的数据。这些在GPT-3面前就像小儿科一样，因为GPT-3直接使用了45TB的数据来预训练。下面是NLP领域各种模型使用数据量级对比图：

图8 NLP领域各种模型使用数据量级对比图

GPT-3使用如此多的训练数据，模型训练过程中的计算量也是惊人的。下面是BERT系列、T5系列和GPT-3系列模型的计算量对比图：

图9 BERT系列、T5系列和GPT-3系列模型的计算量对比图

因为模型包含更多的参数使用更多的数据，所以模型需要的计算量也不断增大。可以说NLP后续是有钱有算力的天下，因为这样的计算量普通公司基本已经“跑”不动了。

3.2 告别微调的GPT-3

因为GPT-3使用了天量级的数据来进行预训练，所以学到的知识也更多更通用，以致于GPT-3打出的口号就是“告别微调的GPT-3”。相比于BERT这种预训练+微调的两阶段模型，GPT-3的目标是模型更加通用，从而解决BERT这种下游任务微调需要依赖领域标注数据的情况。拿我们实际业务举例，我主要做分本分类任务。对于使用BERT来完成文本分类任务来说，首先我需要使用海量的无标注文本数据进行预训练学习语言学知识。幸运的是这种预训练过程一般是一次性的，训练完成后可以把模型保存下来继续使用。很多大厂比如谷歌、Facebook等把得到的预训练模型开源了出来，所以咱们只需要导入预训练好的模型权重就可以直接使用了，相当于完成了模型的预训练过程；第二阶段就是微调了，对于文本分类等下游任务来说，我们需要一批带标签的训练语料来微调模型。不同的下游任务会需要特定的训练语料。这时候面临的一个最大的问题是训练语料是需要人工标注的，而标注的成本是非常高的。除此之外不同的标注人员因为经验阅历等不同导致对同一条文本的理解也不同，所以容易出现标注不一致的问题。当标注数据量较少时还容易出现模型过拟合。归根结底就是微调是需要标注数据的，而获取标注数据的成本是很高的。为了解决这个问题，GPT-3可以让NLPer不用标注训练语料就能很好的完成下游任务，让GPT-3更通用更便利。GPT-3不需要进行微调的结构图如下所示：

图10 GPT-3不需要进行微调结构图

下面我们模拟人类来完成NLP下游任务。如果我们现在的任务是单向选择题，只需要提供任务说明和简单的任务举例，我们就可以理解任务，并且可以进行后面的答题预测了。同样如果我们的任务是阅读理解，我们也可以根据任务说明和任务举例快速的理解任务并且进行下面的答题和预测。人类完成NLP整个流程如下图所示：

图11 人类完成NLP任务举例图

GPT-3可以像人类那样完成NLP任务。GPT-3的作者用训练好的模型去验证不同输入形式的推理效果，主要包括Zero-shot、One-shot和Few-shot。通常情况下BERT这类微调模型总是需要一些样例来更新模型的梯度参数从而让模型更加适应当前的任务。但是GPT-3可以通过不使用一条样例的Zero-shot、仅使用一条样例的One-shot和使用少量样例的Few-shot来完成推理任务。下面是对比微调模型和GPT-3三种不同的样本推理形式图：

图12 对比微调模型和GPT-3三种不同的样本推理形式图

3.3 不同版本的GPT-3

GPT-3总共有8个版本，下面是不同版本的参数详细说明：

图13 不同版本GPT-3参数说明

从上图可以看出最小的GPT-3 small的参数都比基础版本的BERT多，而最大的GPT-3 175B的参数直接达到了恐怖的175B。

3.4 GPT-3模型效果

GPT-3论文包含31个作者，整整72页论文，足可以说明工作量之大，全力演绎了“暴力出奇迹”，在一些NLP任务的数据集中使用少量样本的Few-shot方式甚至达到了最好效果，省去了模型微调，也省去了人工标注的成本。下图看看GPT-3论文庞大的作者阵容：

图14 GPT-3庞大的作者阵容

下面详细分析GPT-3模型的效果。下面是42个自然语言处理任务数据集中三种不同的样本数量方式随着模型参数增加模型分类效果图：

图15 三种不同的样本数量方式随着模型参数增加模型分类效果图

上图中横坐标是样本数量，没有使用样本代表Zero-shot，使用1条样本代表One-shot，使用少量样本则代表Few-shot。从图中可以看出，随着参数的增加模型的效果会有很大的提升，这也证明了模型参数更多并且使用更多的数据的确能有效提升模型效果。从上图中还可以看出GPT-3使用少量样本的Few-shot也能达到非常不错的效果。

下面是GPT-3模型在TriviaQA数据集上的实验结果图：

图16 TriviaQA数据集上GPT-3模型效果图

从上图中可以看出，在TriviaQA数据集上最大的GPT-3仅使用一条样本的One-shot就已经和最好效果的微调模型效果相当，使用64条样本的Few-shot的模型效果已经超越了最好效果的微调模型，这足以说明GPT-3模型的强大。不用标注样本或者仅使用少量样本就能轻松完成下游NLP任务，简直不要太爽。因为对于大多数NLPer来说，最难的莫过于如何获取又多又好的训练语料，但是现在GPT-3帮我们解决了这个问题，所以必须点赞。

下图是在PhysicalQA数据集中GPT-3模型不同输入样本形式的模型效果：

图17 PhysicalQA数据集上GPT-3的模型效果

从上图中可以看出，尤其对于QA任务GPT-3即使不需要一条样本模型效果也能超越最好效果的微调模型。论文整整72页，里面还有很多NLP任务数据集的实验结果，小伙伴们有兴趣的可以看下论文。

小结下，GPT-3使用45TB的训练数据，拥有175B的参数量以巨大无比的姿态走进我们的视野。相比于目前NLP常见的预训练+微调两阶段模型，GPT-3直接干掉了微调阶段，让我们可以不使用或者仅仅使用极少的样本就可以很好的完成下游任务，帮助NLPer们解决了下游任务需要标注大量语料的烦恼。论文同时对比了Zero-shot、One-shot和Few-shot下GPT-3模型在不同数据集中的效果，尤其是在一些数据集中效果超越了最好效果的微调模型。GPT-3尤其擅长生成式任务，比如写故事之类的，网上甚至有言论说让GPT-3来完成红楼梦的后面部分，或者直接去写各种武侠玄幻小说，高产高效。对于我来说，后续我只需要列出我的思维导图，GPT-3是不是就可以直接帮我写文章啦，那样我的一百万字公众号小目标应该能尽早实现了。

总结

本篇主要介绍了GPT系列模型，主要包括GPT、GPT-2和GPT-3。首先介绍了NLP中超强但不秀的GPT模型。GPT属于典型的预训练+微调的两阶段模型，将Transformer作为特征抽取器，使用单向语言模型，属于NLP中非常重要的工作，同时还介绍了GPT模型下游如何改造成不同的NLP任务；然后介绍了有点火的GPT-2。相比于GPT来说GPT-2使用了更多更好的训练数据，同时直接使用无监督的方式来完成下游任务；最后介绍了巨无霸GPT-3。相比于GPT-2，GPT-3直接把模型的规模做到极致，使用了45TB的训练数据，拥有175B的参数量，真正诠释了暴力出奇迹。GPT-3模型直接不需要微调了，不使用样本或者仅使用极少量的样本就可以完成下游NLP任务，尤其在很多数据集中模型的效果直接超越了最好效果的微调模型，真正帮助我们解决了下游任务需要标注语料的问题。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。

参考资料

[1] 《Language Models are few Shot Learners》

[2] The Illustrated Transformer

[3] AllenNLP Demo

最新最全的文章请关注我的微信公众号或者知乎专栏：数据拾光者。

【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
SassScript：Sass中的编程特性详解 jiajia651304 sass 前端 css
Sass（SyntacticallyAwesomeStylesheets）是一种强大的CSS预处理器，它允许开发者使用类似于编程语言的语法来编写CSS，然后通过编译生成标准的CSS代码。SassScript是Sass中的编程特性集合，它包含了变量、嵌套规则、混合、函数以及控制指令等，极大地提高了CSS的开发效率和可维护性。1.变量SassScript中的变量允许开发者在样式表中存储和重复使用值。变
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
Emacs和SML的安装和使用 weixin_42281226 emacs 编辑器
环境：Mac电脑参考文章：编程语言软件安装和使用：SML和Emacs1.Emacs安装和基本使用从官网EmacsForMacOSX下载最新版本，正常安装即可。Emacs使用组合键进行操作（组合键比较难记，可以先尝试通用键）。最重要的操作：（C表示Control）C-xC-c：退出EmacsC-g：取消当前操作C-xC-f：打开文件或新建文件C-xC-s：保存文C-xC-w:等同于saveasC-s
索骥馆－编程语言之《网络编程实用教程（第2版）》扫描版[PDF] cinnarnia 面壁区 windows编程程序设计 TCPIP 网络
内容介绍：本书主要介绍基于tcp/ip协议栈的套接字网络编程技术。全书分为10章，第1章介绍网络编程基础，第2章介绍套接字网络编程接口，第3章介绍windows环境的网络编程，第4章介绍mfc编程，第5章介绍mfcwinsock类的编程，第6章介绍wininet编程，第7章介绍winsock的多线程编程，第8章介绍winsock的输入/输出模型，第9章介绍http及高级编程，第10章介绍电子邮件协
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Java：从入门到创新 java
Java：从入门到创新一、Java简介Java是一种广泛使用的高级编程语言，自1995年首次发布以来，一直深受开发者的喜爱。它由SunMicrosystems公司开发，后来被Oracle公司收购。Java的设计目标是简单、健壮、安全且跨平台，这些特性使其在企业级应用开发中占据重要地位。二、Java的主要特点（一）简单易学Java的语法与C语言和C++语言很接近，但丢弃了C++中一些复杂且容易出错的
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
从指令集鸿沟到硬件抽象：AI 如何重塑手机与电脑编程语言差异——PanLang 原型全栈设计方案与实验性探索1 灏瀚星空 PanLang 原型全栈设计方案与实验性探索人工智能智能手机开发语言架构机器学习语言模型模板方法模式
AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1文章目录AI如何跨越指令集鸿沟？手机与电脑编程语言差异溯源与统一路径——PanLang原型全栈设计方案与实验性探索1前言一、手机与电脑编程语言的核心差异二、实现语言统一的技术路径1.硬件抽象层设计（HAL2.0）2.自适应运行时系统3.跨平台UI引擎三、新型统一语言设计要素1.核心特性2.编
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量 superior tigre C++学习：六个月从基础到就业 c++学习
C++学习：六个月从基础到就业——C++基础语法回顾：数据类型、变量与常量本文是"C++学习：六个月从基础到就业"系列的第一篇技术文章，主要回顾C++的基本数据类型、变量定义和常量使用，为后续深入学习打下基础。查看完整系列目录了解更多内容。引言编程的本质是对数据的处理，而数据类型、变量与常量是任何编程语言的基础构建块。在C++中，对这些基础概念的深入理解不仅能让我们编写出正确的代码，还能帮助我们编
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

你可能感兴趣的:(大数据,自然语言处理,编程语言,计算机视觉,机器学习)