修炼打怪的小乌龟

文本处理——Word2Vec之 Skip-Gram 模型（三）

博文地址： https://zhuanlan.zhihu.com/p/27234078

原文英文文档请参考链接：
- Word2Vec Tutorial - The Skip-Gram Model

- Word2Vec (Part 1): NLP With Deep Learning with Tensorflow (Skip-gram)

什么是Word2Vec和Embeddings？

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。

我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能够让我们基于这样的数值进行向量化的操作从而得到一些有趣的结论。比如说，如果我们对词向量kitten、cat以及dog执行这样的操作：kitten - cat + dog，那么最终得到的嵌入向量（embedded vector）将与puppy这个词向量十分相近。

第一部分

模型

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文，来预测input word。本篇文章仅讲解Skip-Gram模型。

Skip-Gram模型的基础形式非常简单，为了更清楚地解释模型，我们先从最一般的基础模型来看Word2Vec（下文中所有的Word2Vec都是指Skip-Gram模型）。

Word2Vec模型实际上分为了两个部分，第一部分为建立模型，第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器（auto-encoder）的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。基于训练数据建模的过程，我们给它一个名字叫“Fake Task”，意味着建模并不是我们最终的目的。

上面提到的这种方法实际上会在无监督特征学习（unsupervised feature learning）中见到，最常见的就是自编码器（auto-encoder）：通过在隐层将输入进行编码压缩，继而在输出层将数据解码恢复初始状态，训练完成后，我们会将输出层“砍掉”，仅保留隐层。

The Fake Task

我们在上面提到，训练模型的真正目的是获得模型基于训练数据学得的隐层权重。为了得到这些权重，我们首先要构建一个完整的神经网络作为我们的“Fake Task”，后面再返回来看通过“Fake Task”我们如何间接地得到这些词向量。

接下来我们来看看如何训练我们的神经网络。假如我们有一个句子 “The dog barked at the mailman”。

首先我们选句子中间的一个词作为我们的输入词，例如我们选取“dog”作为input word；
有了input word以后，我们再定义一个叫做skip_window的参数，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。如果我们设置，那么我们最终获得窗口中的词（包括input word在内）就是['The', 'dog'，'barked', 'at']。代表着选取左input word左侧2个词和右侧2个词进入我们的窗口，所以整个窗口大小。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word，当，时，我们将会得到两组 (input word, output word) 形式的训练数据，即 ('dog', 'barked')，('dog', 'the')。
神经网络基于这些训练数据将会输出一个概率分布，这个概率代表着我们的词典中的每个词是output word的可能性。这句话有点绕，我们来看个栗子。第二步中我们在设置skip_window和num_skips=2的情况下获得了两组训练数据。假如我们先拿一组数据 ('dog', 'barked') 来训练神经网络，那么模型通过学习这个训练样本，会告诉我们词汇表中每个单词是“barked”的概率大小。

模型的输出概率代表着到我们词典中每个词有多大可能性跟input word同时出现。举个栗子，如果我们向神经网络模型中输入一个单词“Soviet“，那么最终模型的输出概率中，像“Union”， ”Russia“这种相关词的概率将远高于像”watermelon“，”kangaroo“非相关词的概率。因为”Union“，”Russia“在文本中更大可能在”Soviet“的窗口中出现。

我们将通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。下面的图中给出了一些我们的训练样本的例子。我们选定句子“The quick brown fox jumps over lazy dog”，设定我们的窗口大小为2（），也就是说我们仅选输入词前后各两个词和输入词进行组合。下图中，蓝色代表input word，方框内代表位于窗口内的单词。

我们的模型将会从每对单词出现的次数中习得统计结果。例如，我们的神经网络可能会得到更多类似（“Soviet“，”Union“）这样的训练样本对，而对于（”Soviet“，”Sasquatch“）这样的组合却看到的很少。因此，当我们的模型完成训练后，给定一个单词”Soviet“作为输入，输出的结果中”Union“或者”Russia“要比”Sasquatch“被赋予更高的概率。

模型细节

我们如何来表示这些单词呢？

首先，我们都知道神经网络只能接受数值输入，我们不可能把一个单词字符串作为输入，因此我们得想个办法来表示这些单词。最常用的办法就是基于训练文档来构建我们自己的词汇表（vocabulary）再对单词进行one-hot编码。

假设从我们的训练文档中抽取出10000个唯一不重复的单词组成词汇表。我们对这10000个单词进行one-hot编码，得到的每个单词都是一个10000维的向量，向量每个维度的值只有0或者1，假如单词ants在词汇表中的出现位置为第3个，那么ants的向量就是一个第三维度取值为1，其他维都为0的10000维的向量（）。

还是上面的例子，“The dog barked at the mailman”，那么我们基于这个句子，可以构建一个大小为5的词汇表（忽略大小写和标点符号）：("the", "dog", "barked", "at", "mailman")，我们对这个词汇表的单词进行编号0-4。那么”dog“就可以被表示为一个5维向量[0, 1, 0, 0, 0]。

模型的输入如果为一个10000维的向量，那么输出也是一个10000维度（词汇表的大小）的向量，它包含了10000个概率，每一个概率代表着当前词是输入样本中output word的概率大小。

下图是我们神经网络的结构：

隐层没有使用任何激活函数，但是输出层使用了sotfmax。

我们基于成对的单词来对神经网络进行训练，训练样本是 ( input word, output word ) 这样的单词对，input word和output word都是one-hot编码的向量。最终模型的输出是一个概率分布。

隐层

说完单词的编码和训练样本的选取，我们来看下我们的隐层。如果我们现在想用300个特征来表示一个单词（即每个词可以被表示为300维的向量）。那么隐层的权重矩阵应该为10000行，300列（隐层有300个结点）。

Google在最新发布的基于Google news数据集训练的模型中使用的就是300个特征的词向量。词向量的维度是一个可以调节的超参数（在Python的gensim包中封装的Word2Vec接口默认的词向量大小为100， window_size为5）。

看下面的图片，左右两张图分别从不同角度代表了输入层-隐层的权重矩阵。左图中每一列代表一个10000维的词向量和隐层单个神经元连接的权重向量。从右边的图来看，每一行实际上代表了每个单词的词向量。

所以我们最终的目标就是学习这个隐层的权重矩阵。

我们现在回来接着通过模型的定义来训练我们的这个模型。

上面我们提到，input word和output word都会被我们进行one-hot编码。仔细想一下，我们的输入被one-hot编码以后大多数维度上都是0（实际上仅有一个位置为1），所以这个向量相当稀疏，那么会造成什么结果呢。如果我们将一个1 x 10000的向量和10000 x 300的矩阵相乘，它会消耗相当大的计算资源，为了高效计算，它仅仅会选择矩阵中对应的向量中维度值为1的索引行（这句话很绕），看图就明白。

我们来看一下上图中的矩阵运算，左边分别是1 x 5和5 x 3的矩阵，结果应该是1 x 3的矩阵，按照矩阵乘法的规则，结果的第一行第一列元素为，同理可得其余两个元素为12，19。如果10000个维度的矩阵采用这样的计算方式是十分低效的。

为了有效地进行计算，这种稀疏状态下不会进行矩阵乘法计算，可以看到矩阵的计算的结果实际上是矩阵对应的向量中值为1的索引，上面的例子中，左边向量中取值为1的对应维度为3（下标从0开始），那么计算结果就是矩阵的第3行（下标从0开始）—— [10, 12, 19]，这样模型中的隐层权重矩阵便成了一个”查找表“（lookup table），进行矩阵计算时，直接去查输入向量中取值为1的维度下对应的那些权重值。隐层的输出就是每个输入单词的“嵌入词向量”。

输出层

经过神经网络隐层的计算，ants这个词会从一个1 x 10000的向量变成1 x 300的向量，再被输入到输出层。输出层是一个softmax回归分类器，它的每个结点将会输出一个0-1之间的值（概率），这些所有输出层神经元结点的概率之和为1。

下面是一个例子，训练样本为 (input word: “ants”， output word: “car”) 的计算示意图。

直觉上的理解

下面我们将通过直觉来进行一些思考。

如果两个不同的单词有着非常相似的“上下文”（也就是窗口单词很相似，比如“Kitty climbed the tree”和“Cat climbed the tree”），那么通过我们的模型训练，这两个单词的嵌入向量将非常相似。

那么两个单词拥有相似的“上下文”到底是什么含义呢？比如对于同义词“intelligent”和“smart”，我们觉得这两个单词应该拥有相同的“上下文”。而例如”engine“和”transmission“这样相关的词语，可能也拥有着相似的上下文。

实际上，这种方法实际上也可以帮助你进行词干化（stemming），例如，神经网络对”ant“和”ants”两个单词会习得相似的词向量。

词干化（stemming）就是去除词缀得到词根的过程。

---第一部分与第二部分分割线---

第二部分

第一部分我们了解skip-gram的输入层、隐层、输出层。在第二部分，会继续深入讲如何在skip-gram模型上进行高效的训练。

在第一部分讲解完成后，我们会发现Word2Vec模型是一个超级大的神经网络（权重矩阵规模非常大）。

举个栗子，我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重，在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是，你需要大量的训练数据来调整这些权重并且避免过拟合。百万数量级的权重矩阵和亿万数量级的训练样本意味着训练这个模型将会是个灾难（太凶残了）。

Word2Vec的作者在它的第二篇论文中强调了这些问题，下面是作者在第二篇论文中的三个创新：

将常见的单词组合（word pairs）或者词组作为单个“words”来处理。
对高频次单词进行抽样来减少训练样本的个数。
对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的模型权重，从而降低计算负担。

事实证明，对常用词抽样并且对优化目标采用“negative sampling”不仅降低了训练过程中的计算负担，还提高了训练的词向量的质量。

Word pairs and "phases"

论文的作者指出，一些单词组合（或者词组）的含义和拆开以后具有完全不同的意义。比如“Boston Globe”是一种报刊的名字，而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义。因此，在文章中只要出现“Boston Globe”，我们就应该把它作为一个单独的词来生成其词向量，而不是将其拆开。同样的例子还有“New York”，“United Stated”等。

在Google发布的模型中，它本身的训练样本中有来自Google News数据集中的1000亿的单词，但是除了单个单词以外，单词组合（或词组）又有3百万之多。

如果你对模型的词汇表感兴趣，可以点击这里，你还可以直接浏览这个词汇表。

如果想了解这个模型如何进行文档中的词组抽取，可以看论文中“Learning Phrases”这一章，对应的代码word2phrase.c被发布在这里。

对高频词抽样

在第一部分的讲解中，我们展示了训练样本是如何从原始文档中生成出来的，这里我再重复一次。我们的原始文本为“The quick brown fox jumps over the laze dog”，如果我使用大小为2的窗口，那么我们可以得到图中展示的那些训练样本。

但是对于“the”这种常用高频单词，这样的处理方式会存在下面两个问题：

当我们得到成对的单词训练样本时，("fox", "the") 这样的训练样本并不会给我们提供关于“fox”更多的语义信息，因为“the”在每个单词的上下文中几乎都会出现。
由于在文本中“the”这样的常用词出现概率很大，因此我们将会有大量的（”the“，...）这样的训练样本，而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数。

Word2Vec通过“抽样”模式来解决这种高频词问题。它的基本思想如下：对于我们在训练原始文本中遇到的每一个单词，它们都有一定概率被我们从文本中删掉，而这个被删除的概率与单词的频率有关。

如果我们设置窗口大小（即），并且从我们的文本中删除所有的“the”，那么会有下面的结果：

由于我们删除了文本中所有的“the”，那么在我们的训练样本中，“the”这个词永远也不会出现在我们的上下文窗口中。
当“the”作为input word时，我们的训练样本数至少会减少10个。

这句话应该这么理解，假如我们的文本中仅出现了一个“the”，那么当这个“the”作为input word时，我们设置span=10，此时会得到10个训练样本 ("the", ...) ，如果删掉这个“the”，我们就会减少10个训练样本。实际中我们的文本中不止一个“the”，因此当“the”作为input word的时候，至少会减少10个训练样本。

上面提到的这两个影响结果实际上就帮助我们解决了高频词带来的问题。

抽样率

word2vec的C语言代码实现了一个计算在词汇表中保留某个词概率的公式。
是一个单词，是这个单词在所有语料中出现的频次。举个栗子，如果单词“peanut”在10亿规模大小的语料中出现了1000次，那么
。

在代码中还有一个参数叫“sample”，这个参数代表一个阈值，默认值为0.001 （在gensim包中的Word2Vec类说明中，这个参数默认为0.001，文档中对这个参数的解释为“ threshold for configuring which higher-frequency words are randomly downsampled”）。这个值越小意味着这个单词被保留下来的概率越小（即有越大的概率被我们删除）。

代表着保留某个单词的概率：

图中x轴代表着，即单词在语料中出现频率，y轴代表某个单词被保留的概率。对于一个庞大的语料来说，单个单词的出现频率不会很大，即使是常用词，也不可能特别大。

从这个图中，我们可以看到，随着单词出现频率的增高，它被采样保留的概率越来越小，我们还可以看到一些有趣的结论：

当时，。当单词在语料中出现的频率小于0.0026时，它是100%被保留的，这意味着只有那些在语料中出现频率超过0.26%的单词才会被采样。
当时，，意味着这一部分的单词有50%的概率被保留。
当时，，意味着这部分单词以3.3%的概率被保留。

如果你去看那篇论文的话，你会发现作者在论文中对函数公式的定义和在C语言代码的实现上有一些差别，但我认为C语言代码的公式实现是更权威的一个版本。

负采样（negative sampling）

训练一个神经网络意味着要输入训练样本并且不断调整神经元的权重，从而不断提高对目标的准确预测。每当神经网络经过一个训练样本的训练，它的权重就会进行一次调整。

正如我们上面所讨论的，vocabulary的大小决定了我们的Skip-Gram神经网络将会拥有大规模的权重矩阵，所有的这些权重需要通过我们数以亿计的训练样本来进行调整，这是非常消耗计算资源的，并且实际中训练起来会非常慢。

负采样（negative sampling）解决了这个问题，它是用来提高训练速度并且改善所得到词向量的质量的一种方法。不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量。

当我们用训练样本 ( input word: "fox"，output word: "quick") 来训练我们的神经网络时，“ fox”和“quick”都是经过one-hot编码的。如果我们的vocabulary大小为10000时，在输出层，我们期望对应“quick”单词的那个神经元结点输出1，其余9999个都应该输出0。在这里，这9999个我们期望输出为0的神经元结点所对应的单词我们称为“negative” word。

当使用负采样时，我们将随机选择一小部分的negative words（比如选5个negative words）来更新对应的权重。我们也会对我们的“positive” word进行权重更新（在我们上面的例子中，这个单词指的是”quick“）。

在论文中，作者指出指出对于小规模数据集，选择5-20个negative words会比较好，对于大规模数据集可以仅选择2-5个negative words。

回忆一下我们的隐层-输出层拥有300 x 10000的权重矩阵。如果使用了负采样的方法我们仅仅去更新我们的positive word-“quick”的和我们选择的其他5个negative words的结点对应的权重，共计6个输出神经元，相当于每次只更新个权重。对于3百万的权重来说，相当于只计算了0.06%的权重，这样计算效率就大幅度提高。

如何选择negative words

我们使用“一元模型分布（unigram distribution）”来选择“negative words”。

要注意的一点是，一个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words。

在word2vec的C语言实现中，你可以看到对于这个概率的实现公式。每个单词被选为“negative words”的概率计算公式与其出现的频次有关。

代码中的公式实现如下：

每个单词被赋予一个权重，即，它代表着单词出现的频次。

公式中开3/4的根号完全是基于经验的，论文中提到这个公式的效果要比其它公式更加出色。你可以在google的搜索栏中输入“plot y = x^(3/4) and y = x”，然后看到这两幅图（如下图），仔细观察x在[0,1]区间内时y的取值，有一小段弧形，取值在函数之上。

负采样的C语言实现非常的有趣。unigram table有一个包含了一亿个元素的数组，这个数组是由词汇表中每个单词的索引号填充的，并且这个数组中有重复，也就是说有些单词会出现多次。那么每个单词的索引在这个数组中出现的次数该如何决定呢，有公式，也就是说计算出的负采样概率*1亿=单词在表中出现的次数。

有了这张表以后，每次去我们进行负采样时，只需要在0-1亿范围内生成一个随机数，然后选择表中索引号为这个随机数的那个单词作为我们的negative word即可。一个单词的负采样概率越大，那么它在这个表中出现的次数就越多，它被选中的概率就越大。

到目前为止，Word2Vec中的Skip-Gram模型就讲完了，对于里面具体的数学公式推导细节这里并没有深入。这篇文章只是对于实现细节上的一些思想进行了阐述。

其他资料

如果想了解更多的实现细节，可以去查看C语言的实现源码。

其他Word2Vec教程请参考这里。

【自然语言处理（NLP）】Word2Vec 原理及模型架构（Skip-Gram、CBOW）道友老李自然语言处理(NLP)自然语言处理 word2vec
文章目录介绍Word2Vec介绍Word2Vec的核心概念Word2Vec的优点Word2Vec的缺点Word2Vec的应用场景Word2Vec的实现工具总结Word2Vec数学推导过程1.CBOW模型的数学推导（1）输入表示（2）词向量矩阵（3）输出层（4）损失函数（5）参数更新2.Skip-Gram模型的数学推导（1）输入表示（2）词向量矩阵（3）输出层（4）损失函数（5）参数更新3.优化技巧
【小白学AI系列】NLP 核心知识点（三）Word2Vec Blankspace空白人工智能自然语言处理 word2vec
Word2Vec定义：Word2Vec是一种将单词转化为向量的技术，基于神经网络模型，它能够将单词的语义关系通过向量空间的距离和方向进行表示。通过Word2Vec，我们可以将单词从一个离散的符号转化为一个稠密的向量（一般是高维的），并且能够捕捉到单词之间的语义关系和相似性。历史来源：Word2Vec由TomasMikolov等人于2013年在谷歌提出，它迅速成为了词向量表示（wordembeddi
pytorch基于GloVe实现的词嵌入纠结哥_Shrek pytorch 人工智能 python
PyTorch实现GloVe（GlobalVectorsforWordRepresentation）的完整代码，使用中文语料进行训练，包括共现矩阵构建、模型定义、训练和测试。1.GloVe介绍基于词的共现信息（不像Word2Vec使用滑动窗口预测）适合较大规模的数据（比Word2Vec更稳定）学习出的词向量能捕捉语义信息（如类比关系）importtorchimporttorch.nnasnnimp
自然语言处理-词嵌入 (Word Embeddings) 纠结哥_Shrek 自然语言处理人工智能
词嵌入（WordEmbedding）是一种将单词或短语映射到高维向量空间的技术，使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息，使得相似的词在向量空间中具有相近的表示。常见词嵌入方法基于矩阵分解的方法LatentSemanticAnalysis(LSA)LatentDirichletAllocation(LDA)非负矩阵分解(NMF)基于神经网络的方法Word2Vec（Google提
基于Python的自然语言处理系列（2）：Word2Vec（负采样）会飞的Anthony 自然语言处理人工智能信息系统自然语言处理 word2vec 人工智能
在本系列的第二篇文章中，我们将继续探讨Word2Vec模型，这次重点介绍负采样（NegativeSampling）技术。负采样是一种优化Skip-gram模型训练效率的技术，它能在大规模语料库中显著减少计算复杂度。接下来，我们将通过详细的代码实现和理论讲解，帮助你理解负采样的工作原理及其在Word2Vec中的应用。1.Word2Vec（负采样）原理1.1负采样的背景在Word2Vec的Skip-g
一行代码搞定加载glove预训练词向量 peanutwang python 机器学习人工智能
加载glove预训练词向量再也不用glove2word2vec转换啦！以前加载glove预训练词向量的方法fromgensim.scripts.glove2word2vecimportglove2word2vecglove2word2vec('glove.6B.50d.txt','word2vec50d.txt')其实就是在原来的txt文件前面加上了一行信息，行和列。word10.1230.134
知识图谱中的word2vec 技术是做什么的? kcarly 知识图谱入门知识图谱 word2vec 人工智能
Word2Vec是一种将单词转换为向量表示的技术，由Google在2013年提出。这项技术的核心思想是通过大规模文本数据训练神经网络模型，从而将单词映射到低维稠密的向量空间中。这些向量能够捕捉到单词之间的语义和语法关系，使得相似或相关的单词在向量空间中彼此靠近。Word2Vec的基本原理Word2Vec主要包括两种训练模型：CBOW（ContinuousBagofWords）和Skip-gram。
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
【大模型实战篇】大模型周边NLP技术回顾及预训练模型数据预处理过程解析（预告）源泉的小广场大模型自然语言处理人工智能大模型 LLM 预训练模型数据预处理高质量数据
1.背景介绍进入到大模型时代，似乎宣告了与过去自然语言处理技术的结束，但其实这两者并不矛盾。大模型时代，原有的自然语言处理技术，依然可以在大模型的诸多场景中应用，特别是对数据的预处理阶段。本篇主要关注TextCNN、FastText和Word2Vec等低成本的自然语言处理技术，如何在大模型时代发挥其余热。今天先抛出这个主题预告，接下来会花些时间，逐步细化分析这些周边技术的算法原理、数学分析以及大模
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
每天一个数据分析题（五百二十）- 词嵌入模型跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
关于词嵌入模型，以下说法错误的是？A.GloVe模型属于词嵌入模型B.Word2Vec模型属于词嵌入模型C.词袋模型属于词嵌入模型D.词嵌入模型基本假设是出现在相似的上下文中的词含义相似数据分析认证考试介绍：点击进入数据分析考试大纲下载题目来源于CDA模拟题库点击此处获取答案
CnOpenData公共数据专区上新 | 中文金融情感词典 CnOpenData 数据列表深度学习 python 自然语言处理
中文金融情感词典一、数据简介姜富伟教授及其研究团队于2021年第4期《经济学(季刊)》发表了《媒体文本情绪与股票回报预测》，并在文中介绍了一项极富创造力的金融学科研究成果——中文金融情感词典。 “本文在LoughranandMacDonald（2011）词典的基础上通过人工筛选和word2vec算法扩充,构建了一个更新更全面的中文金融情感词典。我们使用该情感词典计算我国财经媒体文本情绪指标,
23 注意力机制—BERT Unknown To Known 动手学习深度学习 bert 人工智能深度学习
目录BERT预训练NLP里的迁移学习BERTBERT动机BERT预训练NLP里的迁移学习在计算机视觉中比较流行，将ImageNet或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测使用预训练好的模型（例如word2vec或语言模型）来抽取词、句子的特征做迁移学习的时候，一般不更新预训练好的模型在更换任务之后，还是需要构建新的网络来抓取新任务需要的信息使用预训
基于seq2seq的SKchat语言模型 eric-sjq 语言模型人工智能自然语言处理
SKchat语言模型是由小思框架开放的中文语言模型，基于seq2seq以及word2vec。v3模型的对话功能界面~在代码方面，我们优化了seq2seq算法，降低了内存的占用，并构建了新的模型。whileTrue:model.fit([x_encoder,x_decoder],y,batchsize,1,verbose=1,)"""解码模型"""decoder_h_input=Input(shap
【自然语言处理】：实验1布置，Word2Vec&TranE的实现 X.AI666 自然语言处理人工智能机器学习自然语言处理
清华大学驭风计划因为篇幅原因实验答案分开上传，答案链接http://t.csdnimg.cn/5cyMG如果需要详细的实验报告或者代码可以私聊博主有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~实验1：Word2Vec&TranE的实现案例简介Word2Vec是词嵌入的经典模型，它通过词之间的上下文信息来建模词的相似度。TransE是知识表示学习领域的经典模型，它借鉴了Word2Ve
Task5 基于深度学习的文本分类2 listentorain_W
Task5基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法Part3词向量本节通过word2vec学习
使用word2vec+tensorflow自然语言处理NLP 取名真难. 机器学习自然语言处理 word2vec tensorflow 机器学习深度学习神经网络
目录介绍：搭建上下文或预测目标词来学习词向量建模1：建模2：预测：介绍：Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间中的向量，使得具有相似含义的单词在向量空间中距离较近。这种向量表示可以用于各种自然语言处理任务，如语义相似度计算、文本分类和命名实体识别等。Word2Vec的核心思想是通过预测上下文或
使用Word Embedding+Keras进行自然语言处理NLP 取名真难. 机器学习 keras python 深度学习神经网络人工智能自然语言处理
目录介绍：one-hot：pad_sequences:建模:介绍：WordEmbedding是一种将单词表示为低维稠密向量的技术。它通过学习单词在文本中的上下文关系，将其映射到一个连续的向量空间中。在这个向量空间中，相似的单词在空间中的距离也比较接近，具有相似含义的单词在空间中的方向也比较一致。WordEmbedding可以通过各种方法来实现，包括基于统计的方法（如Word2Vec和GloVe）和
知识图谱与语言预训练：深度融合的智能问答时代 cooldream2009 AI技术 NLP知识知识图谱知识图谱人工智能预训练
目录前言1直接使用预训练模型vs.知识图谱与预训练相结合1.1直接使用预训练模型1.2构建知识图谱后与预训练相结合2预训练语言模型的发展历程2.1Word2Vec和GloVe2.2ELMo2.3BERT3知识图谱对预训练的助力3.1弥补低频实体信息的不足3.2提供领域知识的支持4典型知识驱动的语言预训练模型4.1ERNIE4.2KnowBERT4.3WKLM4.4K-Adapter结语前言在自然语
word2vec工具学习笔记适说心语
今天是第一次听说这个工具，本来是为了解决非目标客户的问题，但是要从头了解这个内容，所以边找资料边记录一下！一、简介Word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示
图解word2vec，入门自然语言处理必看学术Fun
(关注'AI新视野'公众号，发送‘资料’二字，免费获取50G人工智能视频教程！)图解word2vec精翻版，加入了自己的理解，和稍微有点出入，http://jalammar.github.io/illustrated-word2vec/image词嵌入（embedding）是机器学习中最惊人的创造，如果你有使用过Siri、GoogleAssistant、Alexa、Google翻译，输入法打字预测
Tensorflow 实现 Word2Vec 王小鸟_wpcool
今天学习了一下《Tensorflow实战》这本书中第7章内容，利用tensorflow实现word2vec。其实书中内容就是Tensorflow教程中的例子，现在挣钱真容易。附链接https://github.com/tensorflow/tensorflow/blob/r0.12/tensorflow/examples/tutorials/word2vec/word2vec_basic.py代码
自然语言处理N天-Day0503句向量模型 Doc2Vec 我的昵称违规了
新建MicrosoftPowerPoint演示文稿(2).jpg说明：本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程，我是从GitChat上购买。第五课句向量模型Doc2VecDoc2VecDoc2Vec模型是在Word2Vec模型上提出的计算长文本向量的工具。Doc2vec接收一个由LabeledSentence对象组成的迭代器作为其构造函数的输入参数。其中，LabeledS
揭秘Word2Vec：探索语言的魔法世界洞深视界 word2vec easyui 人工智能机器学习深度学习 git 自然语言处理
欢迎来到Word2Vec的世界！在自然语言处理的舞台上，Word2Vec犹如一位神秘的魔术师，带领我们探索语言的魔法世界。今天，让我们一同踏上这段充满惊喜的旅程，揭秘Word2Vec的神秘面纱。背景：语言的奥秘语言是人类沟通交流的重要工具，但其中隐藏着许多奥秘。在过去，计算机很难理解和处理语言，直到Word2Vec的出现，才让计算机开始懂得了语言的奥秘。Word2Vec的基本原理Word2Vec是
gensim模型（1）——Word2Vec qqqh777
Word2Vec模型介绍Gensim的Word2Vec模型且展示其在LeeEvaluationCorpus上的用法。importlogginglogging.basicConfig(format='%(asctims)s:%(levelname)s:%(message)s',level=logging.INFO)如果你错过了提示，Word2Vec是基于神经网络的广泛使用的算法，通常被称为"深度学习
刘知远LLM——神经网络基础李日音神经网络人工智能深度学习
文章目录神经网络基础基本构成如何训练？Word2Vec例子负采样：循环神经网络RNN门控计算单元GRU长短时记忆网络LSTM遗忘门输入门输出门双向RNN卷积神经网络CNNpytorch实战神经网络基础基本构成全称：人工神经网络。启发于生物神经细胞单个神经元单层神经网络前向计算激活函数的作用：没有激活函数的话，多层神经网络就会退化为单层输出层线性输出：回归问题sigmoid：二分类softmax：多
Gensim详细介绍和使用：一个Python文本建模库 Bigcrab__ Python 库介绍和使用 python
Gensim=“GenerateSimilar”一、安装二、文本预处理2.1中文语料处理2.2英文语料处理2.3BOW语料建立三、模型使用3.1word2vecThealgorithmsinGensim,suchasWord2Vec,FastText,LatentSemanticIndexing(LSI,LSA,LsiModel),LatentDirichletAllocation(LDA,Lda
【爬虫实战】python文本分析库——Gensim 认真写程序的强哥爬虫 python Python爬虫 Python学习 Python文本分析 Gensim 开发语言
文章目录01、引言02、主题分析以及文本相似性分析03、关键词提取04、Word2Vec嵌入（词嵌入WordEmbeddings）05、FastText嵌入（子词嵌入SubwordEmbeddings）06、文档向量化01、引言Gensim是一个用于自然语言处理和文本分析的Python库，提供了许多强大的功能，包括文档的相似度计算、关键词提取和文档的主题分析，要开始使用Gensim，您需要安装它，
探索NLP中的N-grams：理解，应用与优化冷冻工厂程序人生
简介n-gram[1]是文本文档中n个连续项目的集合，其中可能包括单词、数字、符号和标点符号。N-gram模型在许多与单词序列相关的文本分析应用中非常有用，例如情感分析、文本分类和文本生成。N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的替代方法是词嵌入技术，例如word2vec。N-grams广泛用于文本挖掘和自然语言处理任务。示例通过计算每个唯一的n元语
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

文本处理——Word2Vec之 Skip-Gram 模型（三）

什么是Word2Vec和Embeddings？

第一部分

第二部分

你可能感兴趣的:(Word2Vec)