数据拾光者

广告行业中那些趣事系列3：NLP中的巨星BERT

摘要：上一篇广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)通过项目实战讲解了如何使用BERT模型来完成文本分类任务。本篇则从理论的角度讲解BERT模型的前世今生。BERT虽然在模型创新的角度来说并不是非常出色，但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好，通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主要讲解NLP里面的Word Embedding预训练技术的演化史，从最初的Word2Vec到ELMO、GPT，再到今天的巨星BERT诞生，还会讲解如何改造BERT模型去对接上游任务以及BERT模型本身的创新点。

本篇对数据挖掘、数据分析和自然语言处理的小伙伴会有些许帮助。一起努力，终身学习！

01 BERT模型的两阶段技术

02 预训练技术

03 微调及BERT改造

04 BERT的创新之处

01 BERT模型的两阶段技术

图1 BERT 预训练+Fine Tuning两阶段

之前咱们通过一个非常简单的例子讲解了下BERT模型的两阶段技术：预训练Pre-Training和微调Fine-Tuning技术。这里咱们再回顾下。拿上一篇识别一段话是不是属于传奇游戏标签来举例。假如我们有个机器人小智，现在我们希望小智能帮我们完成这样一个任务：我们给小智输入一句话(可能是用户的搜索)，小智就能判断这句话是不是对传奇游戏标签有兴趣。

针对这个任务，BERT模型怎么做的？

BERT主要采用预训练和微调的两阶段架构。预训练做的事就是提前让小智看海量的文本语料。这些语料可能来自现实世界或者网络世界。小智通过这些语料，学习到了很多语言学知识。

很多小伙伴要问了，如果没有预训练这个阶段会咋样？再举个极端的例子，你分别告诉一个刚出生的婴儿和一个大学毕业的小伙子“成龙大哥代言的一刀传奇好玩么”，他们两个的理解能力是完全不同的。

预训练过程的本质就是通过大量的语料，从而获得语言学的知识，最终能更好的帮助我们理解语言本身。这就是预训练技术！

BERT的第二个阶段微调更像是具体问题具体分析。我们可能希望机器人小智来识别女朋友是不是生气了(分类任务)，也可能希望小智帮我们翻译下喵星人石榴(我家胖猫叫石榴)说了啥(翻译任务)，还可能希望小智帮我们看一篇文章主要讲了啥(自动摘要任务)等等。

根据你实际的业务需求，通过第二阶段来完成你想让模型做的事。

总结下，BERT是两阶段模型，预训练通过学习大量的语料获得语言学知识，微调则真正让我们的模型解决实际生活中问题。

02 预训练技术

1.One-hot编码

预训练阶段要解决的一个很重要的问题是文本的表示问题。我们给计算机输入一个词"legend"，计算机并不明白你的意思。计算机能理解的就是01这种数字，所以我们要做的就是对词进行编码。

通常机器学习中我们会使用One-hot编码。小伙伴们要问了，啥是One-hot编码？

举例来说，我们现在一共就四个词："i"，"love"，"legend"，"game"。计算机本身无法理解这四个词的含义，但是我们现在用一种编码表示。"i"编码为1000，"love"编码成0100，"legend"编码为0010，"game"编码为0001。

对One-hot通俗的理解就是有多少个词，就有多少位。如果有8个词，我们就需要长度为8的01串来表示词。每个词都有自己的顺序，那么对每个词One-hot编码的时候在该位置上置1其他都置为0。

现在我们把这四个词对应的编码输入到计算机里，计算机就能明白各个编码代表的含义。这种形式就是One-hot编码。通过One-hot编码我们就能轻松的表示这些文本。

2. Word2vec

One-hot编码存在一个问题，上面的例子中有四个词，那么我们就需要长度为4的01串来表示。如果有100W个词，那么我们就需要长度100W的01串来进行编码么？这显然不方便。

然后引入了embedding技术。深度学习中embedding技术大肆风靡，甚至有"万物皆可embedding"之说。有些小伙伴可能要好奇了，我们用embedding能干啥？

自然语言中我们使用embedding技术进行词编码，也叫Word Embedding。其中最有代表性的就是2013年超火的Word2Vec技术。Word2Vec技术主要将词映射到向量空间，通过一组向量来表示词，实现对文本的表示。Word2Vec技术很好的解决了One-hot编码引起的高纬度和稀疏矩阵的问题。

下图是我们通过Word2Vec将文本映射到三维立体空间中：

图2 Word2Vec映射到三维空间展示图

通过Word2Vec技术我们可以在低纬空间上表示文本。我们可以通过计算词向量空间中的距离来表示语义的相似度。

但是Word2Vec技术也存在明显的缺陷。那就是无法解决多义词问题。比如"legend"这个词，它既可以代表一个人牛逼的人生经历，比如科比拥有传奇的一生。也可以代表图例。但是在Word2Vec中每个词在向量空间中的表示是唯一的。可以假装理解我们有一张很大的表，这张表用来存放所有的词，但是每个词在表中id唯一。在不同的语句环境中"legend"对应不同的语义，但是却使用的是一样的编码。

归根结底，就是因为Word2Vec是静态的Word Embedding。

3. ELMO

为了解决Word2Vec无法理解多义词的问题，2018年NAACL最佳论文《Deep contextualized word representations》提出了ELMO模型。

ELMO模型怎么解决多义词问题呢？先上一张图。

图3 ELMO模型结构

ELMO模型的思想是：模型一开始输入的词向量虽然是静态的Word Embedding，但是没有关系。等模型在预训练的时候可以看到完整的语句，也就拥有了词的上下文。那么我就会根据这个词的上下文来动态的调整Word Embedding。

说的好听，怎么动态调整词的Word Emebedding？

简单的说Word2Vec通过一个向量来表示一个词，现在ELMO用三个向量来表示。

ELMO不仅使用词向量本身，还会通过图3中虚线的左右两个双层LSTM网络结构来学习语句中的句法特征和语义特征。最后拿词向量、句法特征向量和语义特征向量三个向量组合成一个理解了上下文的向量来最终表示这个词。

所以说Word2Vec是静态的Word Embedding

而ELMO是动态的Word Embedding。

图4 ELMO和Word2Vec表示Word Embedding

关于ELMO模型具体怎么通过左右两个双层的LSTM网络来学习句法特征和语义特征，这里做简要说明。LSTM是循环神经网络RNN的变种，要讲的话又是超长的知识分享。这里大家只需要明白ELMO使用LSTM作为特征抽取器来抽取特征就行了。

后续有机会可以分享目前假期正在看的台大李宏毅的深度学习课程笔记。有兴趣的小伙伴也可以去B站搜索"台大李宏毅"就会出来了。浅显易懂的深度学习课程分享给大家。

ELMO使用LSTM来抽取特征。这里再说一个概念，具体预训练的时候我们可以拿到整句话。当我们需要表示某个词的时候，该词前面的部分称为上文，后面的部分称为下文。ELMO模型结构图中虚线的部分是两个双层的LSTM网络结构，左边的是一个正向的双层LSTM网络，主要用来理解这个词的上文。同理右边的是一个逆向的双层LSTM网络，主要用来理解这个词的下文。也就是说ELMO会同时考虑上文和下文。

总结下，ELMO通过左右两个双层的LSTM网络利用上下文的知识共同来表示这个词，所以说它是动态的Word Embedding。Word2Vec和ELMO不同最直接的结果就是，一个词"legend"在一万句话里面Word2Vec表示是一样的，而在ELMO里面可能有一万种表示。

因为后续涉及到和BERT模型的对比，所以关于ELMO模型的归纳就是：一方面使用了LSTM作为特征抽取器，另一方面同时考虑了上下文。

4. GPT

GPT是"Generative Pre-Traingng"的简称，中文是生成式预训练的意思，由论文《Improving Language Understanding by Generative Pre-Training》提出。先来一张GPT模型的结构图压压惊：

图5 GPT模型结构图

GPT和ELMO一样也是动态的Word Embedding，可以解决多义词的问题。和ELMO不用之处在于GPT特征抽取器使用的是Transformer，而ELMO使用的是LSTM。

这里大概提一下Transformer。Transformer是2017年google团队在《Attention is all you need》论文中提出的。这里大家只需要明白Transformer的特征抽取能力非常强，比LSTM强的多就够了。具体为啥强，之前在团队做过一个Transformer的分享，广告系列的下一篇文章会详细讲一下Transformer。希望有兴趣的小伙伴们可以多多关注。

GPT比ELMO明智的一点就是使用Transformer作为特征抽取器。但是GPT在使用词上下文这块有些欠缺，GPT仅仅使用了词的上文来动态表示Word Embedding，这样就完全没有用到下文有用的信息。从以后的发展趋势来看，这并不是一个好主意。

所以针对GPT的归纳总结也是两点：一方面使用Transformer作为特征抽取器，另一方面仅仅使用词的上文来表示Word Embedding。

5. BERT

最后终于到了咱们的巨星BERT模型了。BERT和ELMO、GPT有密切关系。先上一张BERT模型的结构图：

图6 BERT结构图

从BERT结构图可以看出和ELMO、GPT之间的关系。BERT使用了Transformer作为特征抽取器，并且同时使用了上下文来表示。这里BERT使用的上下文和ELMO有不同之处，ELMO是分别看上文和下文，然后将上文得到的结果和下文得到的结果进行拼接。而BERT是同时看上下文中的每个词，效果上也比ELMO要好。

可能小伙伴会有点迷，我画个图说明下：

图 7 BERT和ELMO的上下文不同之处

来张全家图看看Word2Vec、ELMO、GPT和BERT的关系吧：

图8 Word2Vec、ELMO、GPT和BERT之间的关系

从图8咱们查看Word2Vec、ELMO、GPT和BERT之间的关系进行总结：Word2Vec是静态的Word Embedding，所以无法解决多义词问题。而ELMO是动态的Word Embedding。ELMO相比于Word2Vec使用词向量、句法特征向量和语义特征向量三层embedding组合来表示词，主要的特点是使用LSTM作为特征抽取器，同时使用上下文共同来进行词编码。如果将ELMO中的LSTM换成Transformer，那么就变成了BERT的结构。而GPT的特点是使用了Transformer作为特征抽取器，但是仅仅使用了上文。所以如果GPT同时使用上下文那么也就变成了BERT的结构。

BERT集百家之长，同时使用了Transformer作为特征抽取器，还使用了上下文共同来表示词，所以是集大成者。而BERT的效果也是极其出色的。BERT在11个NLP任务重效果有很大的提升。

图9 BERT效果图

03 微调及BERT改造

上面从预训练的角度讲解了各大模型。现在从第二个阶段微调来分析模型。

ELMO、GPT和BERT都是两阶段模型。ELMO第二阶段将三层embedding根据不同的权重组合成一层embedding，每层的权重可以通过模型学习得到。ELMO将组合得到的embedding作为特征提供给上游任务使用。所以这里对ELMO提供给上游的网络结构没有要求。

GPT则不同，GPT主要通过微调的方式来支持上游任务。也就是说要求上游任务和GPT的网络结构是一样的。对接上游任务的时候通过不断微调网络参数以适应当前任务。

图10 BERT改造适应上游任务

BERT同时支持特征补充和微调的方式来对接上游任务。一般选择微调的方式。之前说过，BERT不仅效果好，而且通用性很强。针对不同类型的NLP任务，如何改造BERT从而对接上游任务呢？

BERT论文中有详细说明。对于句子关系类任务，输入部分只需要在句子开始和结束的地方加上特殊的符号，句子之间加上分隔符即可完成改造。而模型输出的部分则需要把第一个起始符号对应的Transformer最后一层添加一个softmax进行分类即可。句子分类任务和句子关系类任务类似。对于序列标注任务来说，输入和句子关系类任务一样，输出则在每个单词后面都进行分类。通过图10可以看出我们可以很容易的改造BERT模型从而去完成各种类型的NLP任务。

04 BERT的创新之处

BERT主要提出了Masked LM和Next Sentence Prediction。

1. Masked LM

之前说过虽然BERT和ELMO都使用了上下文，但是上下文的方式不同。ELMO是构建了左右两个双层LSTM结构分别来理解上文和下文，而BERT则同时理解上下文。

为了训练这样一个可以同时理解上下文的深度双向表示网络，google团队使用了一种随机屏蔽的语言模型Masked LM。

Masked LM是这样做的。首先随机屏蔽每个序列中15%的词，然后类似完形填空那样的操作使用语言模型去预测这15%的词。这样虽然能得到双向预训练模型，但是存在两个问题：

第一个问题，预训练阶段随机屏蔽序列中15%的词，但是在Fine Tuning阶段并不会这么做，这样会导致两阶段间不匹配。为了解决这个问题，google团队会将这15%需要Mask的词再进行划分。其中的80%真正用Mask去屏蔽，比如"I love machine learning"换成"I love [Mask] learning"。还有10%是随机的转化成其他的词，比如"I love machine learning"换成"I love app learning"。最后那10%保持不变。

通过这样的操作模型不知道要预测哪些词，也不知道哪些词被替换了。这样模型就会被迫去学习每个词的上下文表示。

第二个缺点是Masked LM的收敛速度比单向语言模型慢。主要原因是每个batch只预测15%的词，模型可能需要更多的步骤才能收敛。

虽然如此，但是Masked LM模型的效果提升远远超过训练的成本。

2. Next Sentence Prediction

NLP中很多任务需要理解两个句子之间的关系，比如问答任务和自然语言推理任务。

为了使模型能够理解两个句子之间的关系，BERT在选择语料时，会选择句子A和句子B作为训练样本。其中B有50%的可能是A的下一句，还有50%的可能是随机选择的。

通过这种操作实现了Next Sentence Prediction。

3. BERT有效因子分析

BERT在预训练中，Masked LM和Next Sentence Prediction是同时进行训练的。那么到底这两种创新策略对于最终模型的效果有什么影响？

图11 BERT有效因子分析

通过实验发现，Masked LM对模型的效果作用很大，而Next Sentence Prediction则对个别任务有明显影响。

总结和预告

本篇从理论的角度分析了下BERT这种预训练+Fine Tuning的两阶段模型。预训练主要回顾了下Word Embedding的历史，从静态的Word2Vec到动态的ELMO、GPT，再到我们的巨星BERT模型。可以看出BERT是NLP领域近几年重大成果的集大成者。也分析了下在Fine Tuning阶段如何将BERT模型改造成多种多样的NLP任务。最后分析了下BERT的两个创新点Masked LM和Next Sentence Prediction。通过这一篇分享小伙伴们可以对BERT模型的前世今生有个大致的了解，也能方便我们更好的使用BERT模型去完成业务开发。

其中埋下了一个伏笔，我们说BERT模型效果很好的一个重要原因是使用了Transformer作为特征抽取器。那么这个Transformer为啥这么牛？下一篇广告系列就和小伙伴们一起来看一看这个Transformer的神奇之处。

回顾下历史

如果对广告感兴趣的小伙伴建议看看我广告系列的第一篇文章：广告中那些趣事系列1：广告统一兴趣建模流程。第一篇文章对于理解广告以及我们标签团队所做的事情和业务本身至关重要。再牛逼的技术也需要去支撑业务才有价值和意义。

对BERT文本分类感兴趣的小伙伴们可以看下我的第二篇文章：广告行业中那些趣事系列2：BERT实战NLP文本分类任务(附github源码)。第二篇从项目实战的角度指导小伙伴们用BERT模型去完成一个文本分类的项目。

喜欢本类型文章的小伙伴可以关注我的微信公众号：数据拾光者。有任何干货我会首先发布在微信公众号，还会同步在知乎、头条、简书、csdn等平台。也欢迎小伙伴多交流。如果有问题，可以在微信公众号随时Q我哈。

python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取） weixin_39630762 python 命名实体识别
PythonNLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。NLTK有
【小白学AI系列】NLP 核心知识点（六）Softmax函数介绍 Blankspace空白人工智能自然语言处理 transformer
Softmax函数Softmax函数是一种常用的数学函数，广泛应用于机器学习中的分类问题，尤其是在神经网络的输出层。它的主要作用是将一个实数向量“压缩”成一个概率分布，使得所有输出的值在0到1之间，并且总和为1。换句话说，Softmax将模型的原始输出（logits）转化为概率，帮助我们做分类决策。定义与公式假设我们有一个向量z=[z1,z2,…,zn]\mathbf{z}=[z_1,z_2,\d
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
机器学习：利用sklearn实现心脏病预测薄化克Oswald
机器学习：利用sklearn实现心脏病预测机器学习sklearn实现心脏病预测项目地址:https://gitcode.com/Resource-Bundle-Collection/171ff欢迎使用本资源仓库，本项目专注于利用Python的sklearn库进行心脏病预测的机器学习实践。通过详尽的步骤和示例代码，本项目为你展示了如何应用不同的机器学习算法来分析心脏病数据集，并预测患者是否有可能患有
可解释性：走向透明与可信的人工智能一位小说男主人工智能入门深度学习机器学习人工智能神经网络
随着深度学习和机器学习技术的迅速发展，越来越多的行业和领域开始应用这些技术。然而，这些技术的“黑盒”特性也带来了不容忽视的挑战。在许多任务中，尽管这些模型表现出色，取得了相当高的精度，但其决策过程不透明，这对于依赖于机器决策的应用（如金融、医疗、法律等）来说，可能是无法接受的。因此，如何提高模型的可解释性、实现透明和可信的人工智能，成为了当下人工智能领域的重要课题。❤️本文将深入探讨机器学习中的可
**LLM Gateway：您的智能对话门户** 芮奕滢Kirby
LLMGateway：您的智能对话门户llm-gatewayGatewayforsecure&reliablecommunicationswithOpenAIandotherLLMproviders项目地址:https://gitcode.com/gh_mirrors/ll/llm-gateway在人工智能和自然语言处理的浪潮中，LLMGateway以其卓越的设计与功能脱颖而出，为开发者和用户提供
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
OpenAI的编程语言和框架，给程序员带来了帮助有哪些 API技术大佬Anzexi58 OpenAI 人工智能人工智能深度学习
OpenAI是一个人工智能开发公司，成立于2015年，总部位于美国旧金山。这家公司致力于研究和开发先进的人工智能技术，旨在将这些技术应用到解决全球一些最棘手的问题上。OpenAI以其卓越的技术和实验室出品的groundbreakingAIpapers而闻名。OpenAI的研究涉及深度学习、自然语言处理、视觉感知、强化学习等多个领域，并已在各种应用中取得了令人瞩目的成果。例如，在机器人领域，Open
探索OpenAI Python SDK: 智能编程新里程周澄诗Flourishing
探索OpenAIPythonSDK:智能编程新里程openai-pythonTheofficialPythonlibraryfortheOpenAIAPI项目地址:https://gitcode.com/gh_mirrors/op/openai-python如果你对人工智能和自然语言处理有浓厚的兴趣，那么这个项目将为你开启新的探索之门——。这是一个由OpenAI开发的Python库，用于与他们的A
Upgini: 智能数据搜索与丰富化引擎 - 提升机器学习和人工智能模型准确性的利器 2401_87189860 人工智能机器学习
Upgini:智能数据搜索与丰富化引擎在当今数据驱动的世界中,机器学习和人工智能模型的准确性至关重要。然而,提高模型准确性往往是一项艰巨的任务,需要大量的特征工程和数据处理工作。幸运的是,Upgini这一创新的Python库为数据科学家和机器学习工程师提供了一个强大的解决方案。Upgini的核心功能Upgini是一个智能数据搜索和丰富化引擎,专为机器学习和AI设计。它的主要功能包括:自动特征发现与
《机器学习实战》——在python中使用Matplotlib注解绘制树形图哆啦AA梦 python 机器学习 python 机器学习
#encoding=utf-8#使用文本注解绘制树形图importmatplotlib.pyplotaspltdecisionNode=dict(boxstyle="sawtooth",fc="0.8")leafNode=dict(boxstyle="round4",fc="0.8")arrow_args=dict(arrowstyle="<-")#上面三行代码定义文本框和箭头格式#定义决策树决策
【外文原版书阅读】《机器学习前置知识》1.线性代数的重要性，初识向量以及向量加法 Icomi_ 807.《机器学习前置知识》机器学习人工智能计算机视觉深度学习神经网络 c++c语言
目录编辑编辑1.Chapter2WhyLinearAlgebra?2.Chapter3WhatIsaVector?个人主页：Icomi大家好，我是Icomi，本专栏是我阅读外文原版书《BeforeMachineLearning》对于文章中我认为能够增进线性代数与机器学习之间的理解的内容的一个输出，希望能够帮助到各位更加深刻的理解线性代数与机器学习。若各位对本系列内容感兴趣，可以给我点个关注跟进内容
Python 实现车牌识别菜狗小测试 Python技术专栏 python 计算机视觉 opencv
一、车牌识别的基本原理车牌识别主要包括以下几个步骤：图像采集：通过摄像头或其他图像采集设备获取包含车牌的图像。图像预处理：对采集到的图像进行灰度化、滤波、增强等操作，以提高图像的质量和清晰度，便于后续的处理。车牌定位：从预处理后的图像中找出车牌的位置。这可以通过一些特征提取和机器学习算法来实现，例如基于颜色特征、边缘特征等方法来定位车牌区域。字符分割：将定位到的车牌区域中的字符分割开，以便对每个字
数学与机器学习：共舞于智能时代的双璧每天五分钟玩转人工智能机器学习人工智能
随着人工智能的崛起，机器学习作为其核心技术之一，正引领着新一轮的科技革命。而在这场革命中，数学以其深邃的理论和精妙的工具，为机器学习提供了坚实的支撑。数学与机器学习之间的关系，如同琴瑟和鸣，共同编织出智能时代的华美乐章。数学，作为自然科学的皇后，以其严谨的逻辑和精确的推理，为机器学习提供了坚实的理论基础。机器学习算法的设计、优化和应用，都离不开数学的支持。无论是线性代数、概率统计，还是微积分、最优
大模型应用：探索AI大模型的50个应用场景：让科技改变生活。 AGI大模型资料分享员人工智能科技生活 agi 语言模型自然语言处理
随着人工智能技术的迅猛发展，AI大模型在各个领域的应用日益广泛。百度创始人、董事长兼首席执行官李彦宏在2024年世界人工智能大会上表示，目前AI技术发展路线发生了方向性改变，已从过去辨别式人工智能转向了未来生成式人工智能。他更是呼吁：“大家不要卷模型，要卷应用！”本文将为大家盘点AI大模型的50个应用场景，并按应用频率从高到低进行排列，带您了解AI如何深刻改变我们的工作与生活。1.自然语言处理(N
我们为什么要用大语言模型来迭代数据安全能力？大模型. 语言模型人工智能自然语言处理架构深度学习大数据大模型
在当今科技飞速发展的时代，大语言模型无疑是最炙手可热的话题之一。从OpenAI的GPT系列到谷歌的BERT，这些拥有海量参数的模型宛如智能巨人，正重塑着自然语言处理（NLP）的格局。你或许好奇，大语言模型究竟为何如此备受瞩目？这得从自然语言处理领域的核心任务——文本分类说起。文本分类，就像是给五花八门的文本信息贴上合适的“标签”，无论是判断一封邮件是正常邮件还是垃圾邮件，分析社交媒体上的评论是积极
scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
检索增强（Retrieval Augmentation）是一种结合信息检索技术和生成模型的技术大霸王龙系统分析业务人工智能
检索增强（RetrievalAugmentation）是一种结合信息检索技术和生成模型的技术，旨在通过从外部知识库或文档中检索相关信息来增强生成模型的能力。这种方法广泛应用于自然语言处理（NLP）任务中，如问答系统、对话生成和文本生成等。1.检索增强的核心思想检索增强的核心思想是将生成模型与信息检索系统结合，利用外部知识库或文档中的信息来辅助生成更准确、更丰富的回答或内容。具体来说，检索增强包括以
There was a problem confirming the ssl certificate: [SSL:CERTIFICATE_ VERIFY_ FAILED]certificate解决方案爱编程的喵喵 Python基础课程 python pip SSL certificate 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Therewasaproblemco
使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例弥树子 python scikit-learn 分类
在机器学习的世界里，K-NearestNeighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过Python的scikit-learn库实现KNN分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。1.KNN算法简介KNN是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训
git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案爱编程的喵喵 Python基础课程 git github timeout port 443 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了gitclone出现fatal:un
Gradio 快速构建机器学习web可视化界面心得算法小菜鸟成长心得 python
1.操作完成提示try:#对输入的字符串代码进行编译运行exec(get_test_code_example)gr.Info("Modeltestingcompletedsuccessfully.")except:raisegr.Error("Modeltestingfailed.")用到了gr.Info()和gr.Errot(）
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
flask+layui学生信息管理系统元宇宙中的程序员 flask layui python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、数据库建模1、创建数据模型classStudentORM(db.Model):stu_id=d
Python 3.9它来啦！！！ python程序员小'鹏 python 编程语言经验分享程序人生
Python3.9，来了！小编本身就是一名python开发工程师，我自己花了三天时间整理了一套python学习教程，从最基础的python脚本到web开发，爬虫，数据分析，数据可视化，机器学习，等，这些资料有想要的小伙伴"点击"即可领取过去一年，来自世界各地的开发者们一直在致力于Python3.8的改进。Python3.9beta版本已经存在了一段时间，第一个正式版本于2020年10月5日发布。每
AI软件外包需要注意什么外包开发AI软件的关键因素是什么如何选择AI外包开发语言北京动点飞扬软件 AI外包
1.定义目标与需求首先，要明确你希望AI智能体做什么。是自动化任务、数据分析、自然语言处理，还是其他功能？明确目标可以帮助你选择合适的技术和方法。2.选择开发平台与工具开发AI智能体的软件时，你需要选择适合的编程语言、框架和工具。例如：编程语言：Python是最常用的语言，因为它有强大的AI/ML库，如TensorFlow、PyTorch、scikit-learn等。开发平台：你可以使用本地环境、
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
ModuleNotFoundError: No module named ‘pywin32_bootstrap‘解决方案爱编程的喵喵 Python基础课程 python ModuleNotFound win32_bootstap 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ModuleNotFoundErro
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

广告行业中那些趣事系列3：NLP中的巨星BERT

你可能感兴趣的:(自然语言处理,文本分类,机器学习)