元宇宙iwemeta

word2vec是如何得到词向量的？

前言

word2vec是如何得到词向量的？这个问题比较大。从头开始讲的话，首先有了文本语料库，你需要对语料库进行预处理，这个处理流程与你的语料库种类以及个人目的有关，比如，如果是英文语料库你可能需要大小写转换检查拼写错误等操作，如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经梳理过了不再赘述。得到你想要的processed corpus之后，将他们的one-hot向量作为word2vec的输入，通过word2vec训练低维词向量（word embedding）就ok了。不得不说word2vec是个很棒的工具，目前有两种训练模型（CBOW和Skip-gram），两种加速算法（Negative Sample与Hierarchical Softmax）。本答旨在阐述word2vec如何将corpus的one-hot向量（模型的输入）转换成低维词向量（模型的中间产物，更具体来说是输入权重矩阵），真真切切感受到向量的变化，不涉及加速算法。如果读者有要求有空再补上。

1 Word2Vec两种模型的大致印象

刚才也提到了，Word2Vec包含了两种词训练模型：CBOW模型和Skip-gram模型。

CBOW模型根据 中心词W(t)周围的词来预测中心词
Skip-gram模型则根据 中心词W(t)来预测周围词

抛开两个模型的优缺点不说，它们的结构仅仅是输入层和输出层不同。请看：

CBOW模型

Skip-gram模型

这两张结构图其实是被简化了的，读者只需要对两个模型的区别有个大致的判断和认知就ok了。接下来我们具体分析一下CBOW模型的构造，以及词向量是如何产生的。理解了CBOW模型，Skip-gram模型也就不在话下啦。

2 CBOW模型的理解

其实数学基础及英文好的同学可以参照斯坦福大学Deep Learning for NLP课堂笔记。

当然，懒省事儿的童鞋们就跟随我的脚步慢慢来吧。

先来看着这个结构图，用自然语言描述一下CBOW模型的流程：

CBOW模型结构图

NOTE：花括号内{}为解释内容.

输入层：上下文单词的onehot. {假设单词向量空间dim为V，上下文单词个数为C}
所有onehot分别乘以共享的输入权重矩阵W. {V*N矩阵，N为自己设定的数，初始化权重矩阵W}
所得的向量 {因为是onehot所以为向量} 相加求平均作为隐层向量, size为1*N.
乘以输出权重矩阵W' {N*V}
得到向量 {1*V} 激活函数处理得到V-dim概率分布 {PS: 因为是onehot嘛，其中的每一维斗代表着一个单词}，概率最大的index所指示的单词为预测出的中间词（target word）
与true label的onehot做比较，误差越小越好

所以，需要定义loss function（一般为交叉熵代价函数），采用梯度下降算法更新W和W'。训练完毕后，输入层的每个单词与矩阵W相乘得到的向量的就是我们想要的词向量（word embedding），这个矩阵（所有单词的word embedding）也叫做look up table（其实聪明的你已经看出来了，其实这个look up table就是矩阵W自身），也就是说，任何一个单词的onehot乘以这个矩阵都将得到自己的词向量。有了look up table就可以免去训练过程直接查表得到单词的词向量了。

这回就能解释题主的疑问了！如果还是觉得我木有说明白，别着急！跟我来随着栗子走一趟CBOW模型的流程！

3 CBOW模型流程举例

假设我们现在的Corpus是这一个简单的只有四个单词的document：
{I drink coffee everyday}
我们选coffee作为中心词，window size设为2
也就是说，我们要根据单词"I","drink"和"everyday"来预测一个单词，并且我们希望这个单词是coffee。

假设我们此时得到的概率分布已经达到了设定的迭代次数，那么现在我们训练出来的look up table应该为矩阵W。即，任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

如有疑问欢迎提问。

编辑于 2017-12-25

赞同 907158 条评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

斤木

PhD candidate@EdinburghNLP

87 人赞同了该回答

谢邀。这个问题没那么复杂，不用谈word2vec实现上的各种细枝末节。

--“后者的输入就貌似已经是词向量了”
-- 没错。

-- 输入？输入哪里来的词向量？
-- 随机初始化。

-- 但词向量不是模型训练的任务么？怎么变成了输入？好奇怪？
-- 词向量一般不是模型训练的任务，而是为完成任务顺带得到的附属品。就像90年代很多男生为了追女生而学吉他，出发点并不是自己热爱艺术，但也顺带提升了艺术气质，甚至留起了飘逸的长发:) 词向量是在训练过程中和模型参数一起被优化的。

-- 什么，输入也能优化？
-- 对。CBOW也好，Skip-gram也好，还是各种各样其他NNLM也好，简单来看，不过是模型任务的区别。通过建模，每个词与其上下文建立了联系；通过训练，参数和输入得到优化。最终，在实现损失函数minimization的同时，得到一份饱含semantic properties的词向量。

很简单吧 :)

编辑于 2016-07-23

赞同 8714 条评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

Kizunasunhy

Life's about experience.

107 人赞同了该回答

确实，网上的很多资料好像并没有在一开始就阐明这个“词向量”到底是怎么来的，也有可能是简短说了一下但是并没有引起我们的注意，导致我们会问“生成的向量到底在哪儿呀”。那么word2vec向量到底在哪儿？其实这些词向量就是神经网络里的参数，生成词向量的过程就是一个参数更新的过程。那么究竟是什么参数呢？就是这个网络的第一层：将one-hot向量转换成低维词向量的这一层（虽然大家都不称之为一层，但在我看来就是一层），因为word2vec的输入是one-hot。one-hot可看成是1*N（N是词总数）的矩阵，与这个系数矩阵（N*M, M是word2vec词向量维数）相乘之后就可以得到1*M的向量，这个向量就是这个词对应的词向量了。那么对于那个N*M的矩阵，每一行就对应了每个单词的词向量。接下来就是进入神经网络，然后通过训练不断更新这个矩阵。这个部分在网上的资料里经常被简略的概括，输出层一般是重点解释的对象，所以需要仔细地理清这个思路。有了这个概念之后再去看word2vec网络具体是怎么实现的，就会容易很多。

发布于 2016-11-17

赞同 10721 条评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

AppsFlyer

不感兴趣知乎广告介绍

准备好应对iOS14 隐私新规带来的归因挑战了么？听听专家怎么说

Apple最新的隐私政策生效后，SKAdNetwork价值最大化将成为行业新挑战！AppsFlyerSK360系列新产品正式上线，突破SKAdNetwork局限，以丰富的衡量维度获取数据洞察，保护您的iOS端广告不受移动作弊的侵袭，实现持续增长查看详情

Multiangle

什么都感兴趣

68 人赞同了该回答

不请自来~。从文本语料得到词向量的话，大概来讲有如下几个步骤：分词，统计词频，构建huffman树，输入文本训练词向量

第一步是分词。英文要好一些，单词之间有空格分隔，但是需要进行词干提取和词形还原预处理。中文的话，分词就要麻烦的多。我但是用的是jieba来进行分词的。

第二步骤，统计词频。首先统计出每个单词出现的次数，然后需要去掉停用词，非常高频的词和非常低频的词。去掉高频词是因为没有特殊性，去掉低频词是因为没有普适性

第三步，构建huffman树。所有的非叶节点存储有一个参数向量，所有的叶节点分别代表了词典中的一个词。参数向量初始值为0。构建完huffman树之后，将对应的huffman码分配给每个单词。此外，还需要随机初始化每个单词的词向量。

第四部，训练，也就是提到的比较多的CBOW和skip-gram模型了。word2vec采用的语言模型是n-gram模型+词袋模型(我不知道这样表述严不严谨)，也就是说假设一个单词只与周围若干个单词有关且不考虑单词间的顺序关系。
CBOW中训练集的输入是周围几个单词的词向量之和，输出是中间那个单词。从根节点开始，沿着huffman树不停地进行logistic分类，每进行一次分类就沿着Huffman树往下一层并更正词向量，直到最后达到叶节点。(还记得之前提到过单词的huffman码吗，就是为每一层分类提供依据的，如果是1，则表示应当分到左节点，否则表示应当分到右节点，当然也可以反过来)
skip-gram模型与CBOW相反，输入是中间那个单词，输出是周围的单词。

主要就是这四个步骤了。另外word2vec中还有许多细节上有优化，比如对高频词按概率删除，自适应学习率，sigmoid的近似计算等等，就不详述了

发布于 2016-05-25

赞同 6821 条评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

文兄

机器学习话题下的优秀答主

15 人赞同了该回答

其实词向量就是训练神经网络时候的隐藏层参数或者说矩阵。

发布于 2017-09-03

赞同 15添加评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

郑哲东

计算机科学博士在读

33 人赞同了该回答

其实原理上就是两层神经网络。用输入词去预测邻近的词。比如，如果你给出一个词苏联（Soviet），那么概率很高的输出应该是联合（Union）和俄罗斯（Russia）而不是西瓜或者袋鼠。通过这样的训练，我们最后把output layer去掉，就提取中间300维的特征，这就是我们要的word vector了。

那么什么词有相同的上下文（邻近的词）？比如一些近义词 smart 和intelligent 再比如一些相关的词 engine 和 transmission。这些词的word vector 就很接近。

推荐文章：Word2Vec Tutorial - The Skip-Gram Model

我自己在csdn上做了中文的翻译：Word2Vec教程 - Skip-Gram模型

如果想进一步了解，如何提高训练效率的trick，可以看关于Negative Sampling：Word2Vec教程（2）- Negative Sampling

最后感谢大家看完～欢迎关注分享点赞～也可以check我的一些其他文章

郑哲东：用CNN分100,000类图像zhuanlan.zhihu.com郑哲东：NVIDIA/悉尼科技大学/澳洲国立大学新作解读：用GAN生成高质量行人图像，辅助行人重识别zhuanlan.zhihu.com郑哲东：利用Uncertainty修正Domain Adaptation中的伪标签zhuanlan.zhihu.com

编辑于 2020-05-13

赞同 334 条评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

知乎用户

49 人赞同了该回答

看到这句“而后者的输入就貌似已经是词向量了”我猜题主真正想问的应该是“最初的词向量是哪来的”，因为对于这个问题我曾经也纠结了很久。

所以现在我来从实际的代码出发解释一下，我用的pytorch，用Keras或者TF的老铁可以自行查阅各自的框架API。

首先我们把语料读进来，然后要把作为文本信息的语料，转换为可以进行数学计算的数字形式。我们首先要统计语料中的所有词语（如果是中文的话还要先进行分词处理），然后建立一个字典，让每一个词语都唯一对应一个数字ID，最后再把每一句话都变成跟词语一一对应的一串数字ID，这个过程叫做tokenization，一般翻译成“标记化”或者“令牌化”。

配合pytorch使用，有一个库叫torchtext，可以完成这个操作：

输出结果差不多是这样：

第一行那个defaultdict输出的是torchtext工具生成的字典，字典的key是词，value是对应的数字ID。

下面是输出的原始语料和tokenization之后的语料，可以看到第一个语料“备胎是硬伤！”，这里面“是”的ID为7，“！”（中文感叹号）的ID是8，然后下面经过tokenization的第一句话，对应这两个词的数字ID恰好也是7和8。

字典里的表示字典中没有出现过的词，而表示padding，因为很多模型一般都要求输入的语料长度一致，所以一种常用的处理方式就是把每一句话都跟语料库中曾经出现过的最长的一句话对齐——实际不足的部分就用padding补齐。所以我们可以看到，第一句话的后面全都是表示padding的ID 1。

然后在搭建模型的过程中，我们可以直接使用已经定义好的常见神经网络层——其中有一种embedding层，就是我们所说的词嵌入层。

Embedding层的参数，是一个L X D大小的矩阵——L是上一步生成的词典的长度，d是词向量的维度。Embedding层接受数字作为输入，然后返回数字所对应的矩阵列下标的向量。

比如我们输入[0,1,2]，Embedding层就会返回矩阵的第0列、第1列和第2列的列向量——实际返回的是这三个列向量拼成的一个3 X D大小的矩阵：

于是让我们回到最初的问题——“最初的词向量是哪来的”，这个Embedding层里已有的“词向量”数字是怎么出现的呢？

其实答案很简单：

瞎JB填的。

简单地说，包括Embedding层在内，torch.nn里提供的所有常用的神经网络层，刚建立的时候里面的参数都是随机生成的一堆没什么意义的随机数。

当然呢，我们也不能真的瞎JB填，具体怎么对模型参数进行初始化，也是有讲究的——不过这里我们先不讨论这些，继续往下看。

然后就是对模型进行训练了。有一点你一定要明确，词向量参数是瞎JB填的，完全不影响模型按照Skip-gram或者CBOW的方法来进行相应的计算。当然呢，计算出来的结果，就跟正确答案差得远了——所以我们才要用真实语料对模型进行训练。

具体的训练过程其他答案和网上的文章已经讲得非常清楚了，我就不再废话了——简而言之，通过真实语料的词与词之间的共现关系，计算出你现在的瞎JB填参数的模型错的有多离谱，也就是损失函数，然后对损失函数进行求导，通过反向传播求出你一开始瞎JB填的各个词向量参数的导数，然后更新这些参数的值。

在pytorch里，训练的过程差不多是这样的：首先用模型进行一次预测，得到result，然后用损失函数（可以是事先定义好的，也可以是你自己写的）计算loss的值，再对loss进行求导，最后让事先准备好的优化器（现在比较常用的是Adam）根据求出的导数更新模型参数。pytorch已经实现了自动求导和反向传播，你直接调loss的backward方法就可以了：

这样一来，经过大量语料训练之后，你的Embedding层就已经是比较准确的词向量了。当然目前我们一般不会直接用自己的语料训练词向量，而是使用别人在超大量语料库上训好的词向量，直接用这些现成的词向量进行下游任务。除了w2v之外，比较常用的还有GloVe。至于ELMo和BERT，它的原理就跟w2v完全不同了，这个需要单独学习。

现在你明白了吗？

编辑于 2019-08-25

赞同 496 条评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

li Eta

机器学习话题下的优秀答主

17 人赞同了该回答

谢邀。

参考这三个回答：
有谁可以解释下word embedding? - li Eta 的回答
有没有详细讲解word2vec的原理、具体应用、中文处理方面的资料或教程？ - li Eta 的回答
Skip-gram如何训练得到词向量（ Distributed Representation）？ - li Eta 的回答

编辑于 2016-05-24

赞同 17添加评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

知乎用户

26 人赞同了该回答

可以通过源码+数学原理结合的方式去探究一下。

在 github 找到一个有注释的源码，以及博客园和 CSDN 上两位大神分享的很不错的博文。

word2vec 中的数学原理详解（作者：peghoty 完整看完对理解w2v很有帮助）
附带注释的 word2vec 源码（作者：chenbjin）
word2vec源码解析（作者：google19890102）

word2vec顾名思义嘛，它的输出模型实际上就是：词和向量的映射关系 。

所以可以重点了解一下 syn0 这个数组（这里其实是把一个词*向量的矩阵转换为一个一维数组表示）是怎么得到的。

以基于 Hierarchical Softmax 的 cbow 模型为例，首先介绍一下它的模型网络结构。

如图，该模型有三层结构构成：

输入层是当前词和它的相邻位置单词的向量
投影层是将输入矩阵映射一个向量（对应维度加和求平均）
输出层是一颗霍夫曼树（树中的叶子节点就是每个词，高频词到根节点的路径相对较短，词到根节点也只有一条路径，每一个中间节点就是一个 sigmoid 单元）

其中输出层是一颗二叉树，从根节点到指定词会经过多个中间节点。

每经过一个中间结点，其实就是一次二分类（sigmoid ），每个词到达根节点路径中的节点都会有一个对应的权重向量。

所以模型训练就是找到这个合适的权重向量，使得根节点到指定词的发生的概率最大，也就是 p(w|Context(w)) 最大。中间节点的权重向量求得之后，就可以知道原始词的向量了！

实际上，word2vec 求解模型的过程中用到的是梯度上升法，每输入一个样本就会刷新一遍相关的参数向量，直至所有样本读取完毕。

然后，简单来说一下源码中词向量（源码中对应 syn0）的训练步骤。

读取语料，统计词频信息
构建词典，并初始化霍夫曼树以及随机初始化每个词的对应向量（维度默认是200）
以行为单位训练模型（输入文件都在一行上，会按照最大1000个词切割为多行）
获取当前行中的一个输入样本（当前词向量以及相邻几个的词的词向量）
累加上下文词向量中每个维度的值并求平均得到投影层向量X(w)（neu1）
遍历当前词到根节点（输出层的霍夫曼树）经过的每个中间节点
计算中间节点对应的梯度 g * 学习速率（与中间节点的权重向量 syn1 和投影层向量 neu1 相关）
刷新投影层到该中间节点的误差向量（与梯度和中间节点向量相关）
刷新中间结点向量（与梯度和投影层向量相关）
刷新上下文词向量（其实就是将误差向量累加到初始向量中）

至于梯度值具体是如何求解的，简单来说就是得到对于整个模型的目标函数，然后对对应的随机变量求分导（废话...）。

具体的公式推导在peghoty 大神的博文word2vec 的数学原理中已经有了很详细的说明，真的非常详细，完整看完对理解 word2vec 会有非常大的帮助！！！

没了......

编辑于 2017-09-13

赞同 268 条评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

阿北

微软程序员，算法专家。公众号：Hello阿北

12 人赞同了该回答

word2vec有两种训练模型：CBOW模型和Skip-gram模型。CBOW模型根据上下文的词来预测中心词，而Skip-gram模型正好相反，根据中心词来预测上下文的词。

这里以CBOW模型来说明如何得到词向量。(Skip-gram训练过程原理类似)

假设我们现在的词典D={我，喜欢，到处，旅游}。在一次模型训练中，中心词为"喜欢"，窗口大小为2，则上下文为"我"、"到处"、"旅游"。

CBOW模型训练过程

结合视频演示，CBOW的训练过程如下：

Step 1. 得到上下文词的onehot向量作为输入，同时得到预期的输出onehot向量(这个用来最后计算损失函数)。

Step 2. 输入层每个词的onehot与权重矩阵W相乘，得到对应的向量。(其实这就是对应词的词向量，矩阵的参数是网络通过训练得到的)。

Step 3. 将得到的三个向量相加求平均，作为输出层的输入。

Step 4. 将向量与输出层的权重矩阵U相乘，得到输出向量。

Step 5. 将softmax作用于输出向量，得到每个词的概率分布。

Step 6. 通过损失度量函数(如交叉熵)，计算网络的输出概率分布与预期输出onehot向量的之间损失值。通过这个损失值进行反向传播，更新网络参数。

经过上述步骤的多次迭代后，矩阵W就是词向量矩阵，每个词通过onehot查询词向量矩阵就能得到其对应的词向量。

在实际应用中，word2vec会采用层次softmax和负采样方法优化训练过程，具体可参考：word2vec 中的数学原理详解

编辑于 2020-05-23

赞同 123 条评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

shirley

暂无。

5 人赞同了该回答

发现上面的回答比较偏向于训练语言模型的网络结构，由于自己在开始看word2vec的时候也存在这样的疑问，所以试着从非技术细节方面回答一下，希望能帮到同样存在疑惑的刚入门的同学。

首先必须明确的是，word2vec的词向量（也就是论文里的word embedding）是基于某个特定语料的，单独拿出任一个词向量都没有什么意义，它的作用在于众多词向量之间的相对差异所表现出来的语义表达。

（1）关于向量的维数。这是事先设定的，这个值至于是多少目前并没有很严格的理论依据，如果你自己运行word2vec源码你自己设100，200都是可以，当然得到的词向量在做具体的NLP任务（比如题主说的文本聚类任务）时是效果也是会有差异的，可以多设几次，哪次效果好你就选哪个维数，而300这个常用数值也是mikovo在论文里提到的。有个专门的问题探讨这个维数值设计embedding维数的时候有什么讲究？ - 知乎

（2）关于向量各元素值。正如上面某同学提到初始值是随机的，然后以语料中哪几个词离得近让这两个词对应的词向量的距离越近为目标不断地修改向量各元素值，从这个角度来看，实际上就是迭代过程。至于怎么迭代的，如何迭代这个修改过程就要提到神经语言模型了，如果想研究的话入门论文我建议yoshua bengio的 A Neural Probabilistic Language Model ，整篇论文娓娓道来，很详细也很容易懂，另外还有Mikovo的2013系列，再有时间甚至word2vec的源码也可以拿来研究一下。其他的辅助资上面的回答已经给出很好的材料了，我就不多赘述了。

希望有所帮助：）

编辑于 2017-06-06

赞同 54 条评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

gggctgg

机器学习

7 人赞同了该回答

参考斋藤康毅的书《深度学习入门2自然语言处理篇》，这本书还没翻译成中文版，但写的很详细，首先介绍了one-hot编码，假设你的文本总共有100个词汇，那就用一个100维的矢量来表示一个词，其中的一维数字为1，其他维是0（这也叫稀疏的表示，仅有一维有实际的信息），这样就得到了最简单的一种用矢量表示单词的方法，然而这种方法有缺陷，就是词汇越多，维数越多，计算量也越大。我们希望用较低维的矢量来表示每个单词，这就是embedding的方法，embedding里表示每一个单词的维数比one-hot要小，而且每一维都表示了单词的某种内在特性，这种特性人类可能难以理解，但又是确实存在的。学习embedding的表达应该怎么做呢？首先你要知道一个单词的意思是由它的上下文（context，你可以理解为在它前后的单词）决定的，为了简单起见，我们假设一个单词（target）的意思可由它前一个单词（input1）和后一个单词（input2）决定（这里的target，input1，input2都是单词对应的one-hot编码矢量，而且是行矢量，元素数等于词汇数n），我们来训练这么一个神经网络，输入input1和input2，input1和input2分别乘以同一个矩阵w1（w1的行数等于n，列数是自己定的一个远小于词汇数的数m），得到两个相同维数的行矢量，这两个矢量相加取平均得到中间层行矢量（这一过程是encoder），这个行矢量的维数是m，表示被压缩进m维空间里的input1和input2的综合信息（具体每一维表示什么信息人类并不理解），我们再把这个中间层行矢量乘以另一个矩阵w2（w2的行数为m，列数为n），得到一个输出output（n维行矢量，这一过程是decoder），这个output我们希望它跟target越像越好，因此通过不断训练更新w1和w2，最终我们可以得到这样一个网络。此时w1和w2里就储存了我们想要的词编码信息，w1的第i行和w2的第i列都可用来表示one-hot里第i个单词，大多数用w1的第i行（m维行矢量）来表示，你也可以w1的i行与w2的i列的转置加起来取平均来表

发布于 2019-10-21

赞同 7添加评论

收藏喜欢

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

扇贝编程

不感兴趣知乎广告介绍

0基础学python，4天快速上手，保姆级指导

0基础可学，4天即可入门，趣味学习方式，告别加班，告别低薪，你的同事都在学了，你还在等什么？查看详情

陈君

5 人赞同了该回答

word2vec（2013年）以一种更加高效的方式训练表征语义信息的词向量。常见采用三层网络结构：输入层、单层隐藏层、输出层。训练流程包含CBOW和skip-gram

CBOW的训练过程

CBOW每一轮是以上下文词语作为输入，去训练拟合得到中心词。词汇表大小设为V，CBOW的单次迭代过程如下：

图1 只有一个上下文词语的简易版CBOW模型

选定中心词，将中心词前后位置的词作为这一轮模型迭代输入信息，信息输入格式是上下文词语的one-hot格式编码。问题简化一下，假设就选中心词的上一个词作为上下文词。那么输入的数据是一个shape=(1，V)的input vector。
输入层和隐藏层之间的权重矩阵标记为W。input vector乘W就得到了隐藏层状态hidden vector，shape=(1, N)，在隐藏层中不需要做任何其他操作。从输入层到隐藏层的数据流向其实就是输入的上下文词在输入权重W中找到对应的embedding向量。
隐藏层和输出层之间的权重标记为W'。hidden vector乘W'，然后再使用softmax激活函数。输出层输出的是大小为V的softmax概率向量。
参数优化过程常用交叉熵作为损失函数。通过反向传播算法更新W和W'。

一轮的训练过程是这样的，而接下来就接着选择另外一个中心词，重复步骤1~4不断更新W和W'。细心的同学已经发现输入权重矩阵W就是所有词向量的集合，每一行对应着一个词。

Q:如果是每次训练选定多个上下文词语该怎么训练？跟前面会有什么不同嘛？

A:没有不同，只是在隐藏层处理的时候，将多个上下文词的对应向量（输入权重权重矩阵的某几行）做平均计算即可，其他同理。

Skip-gram的训练过程

skip-gram每一轮训练是将中心词作为输入，去训练拟合得到上下文词。单次迭代过程如下：

图2 skip-gram模型

输入层：选定中心词，输入中心词的one-hot编码；
输入层=>隐藏层：输入层到隐藏层之间同样设有输入层权重矩阵W，shape=(V, N)。中心词的one-hot乘W，得到此时中心词对应的向量表示h，shape=(1, N);
隐藏层=>输出层：这里要手动敲黑板~图2中的结构是经典的网络结构画法，却容易给人带来费解：”为什么一次训练中的隐藏层向量h，可以同时输出多个shape=(1, V)的softmax概率向量”。其实skip-gram在训练W和W'的时候一次输入和输出都只有一个词。从网络结构上来看skip-gram和CBOW是一样的，只是中心词和上下文词的输入输出顺序颠倒了一下。所以一次迭代应该拆分成多对“中心词-上下文词”的单独训练过程。

重复1~3更新W和W'，W就是最后的词向量集合。

CBOW和skip-gram的差异

Skip-gram效果比CBOW好；
Skip-gram训练时间长，但是对低频词(生僻词)效果好；CBOW训练时间短，对低频词效果比较差。

（以上结论我还没有验证过，感兴趣的同学有想法可以一起交流一下，手动笔芯~）

写在后面

说到word2vec还需要了解工程实际应用需要进行的训练优化，例如：层次softmax和负采样。

参考：

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. (2013b). Distributed representations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems, pages 3111–3119.
Xin Rong (2016). Word2vec Parameter Learning Explained.arXiv preprint arXiv:1411.2738
Ning Lee：推荐系统从零单排系列(五)—Word2Vec理论与实践(下)

发布于 2020-02-07

赞同 52 条评论

收藏喜欢收起

继续浏览内容

知乎

发现更大的世界

打开

Chrome

继续

知乎用户

5 人赞同了该回答

以下是一个及其易懂的example，希望可以帮助你理解word2vec的整个过程。

强烈推荐这篇文章：Quick Notes: Useful Terms & Concepts in NLP: BOW, POS, Chunking, Word Embedding，里面以语料"I drink coffee everyday."为例，提供CBOW和Skip-gram两个模型的训练过程图，超级通俗易懂。

假设我们现在的Corpus是这一个简单的只有四个单词的document：
{I drink coffee everyday}
我们选coffee作为中心词，window size（上下文窗口大小）设为2
也就是说，我们要根据单词"I", "drink"和"everyday"来预测一个单词，我们希望这个单词是coffee

Step 1：对所有词进行one-hot编码，确定window size等一系列参数

I = [1 0 0 0]

drink = [0 1 0 0]

coffee = [0 0 1 0]

everyday = [0 0 0 1]

Step 2：初始化输入层到隐藏层的权重矩阵W（V行N列）

V表示语料库中词的个数，即one-hot词向量的维数是V

N表示隐藏层神经元的数量，即希望最后得到的词向量维数为N

Step 3：得到每个词的词向量

Step 4：求平均值得到隐藏层向量

当然，源码实现是基于Negative Sampling或Hierarchical Softmax这两个优化方法的，实现不完全是上面描述所示，但是基本思想是不变的。

你可能感兴趣的:(短视频,云计算,NN,deep,learning,neural,network)

法律行业——合同审查与AI律师 zhouyaowei1983 人工智能人工智能
一、引言：AI技术重构法律行业新格局‌随着AI技术从实验室走向规模化应用，法律行业正经历从“经验驱动”向“数据驱动”的范式转变。这一变革的核心驱动力源于法律服务的两大根本矛盾：‌传统人工服务效率瓶颈‌与‌市场对高精度、低成本法律产品的迫切需求‌‌。‌1.法律行业数字化转型的底层逻辑‌‌技术革命推手‌：以DeepSeekR1大模型为代表的开源AI技术，让法律文本解析、案例推理等复杂任务实现平民化应用
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
Qt for WebAssembly程序中文乱码问题处理过程 muren Qt c++qt wasm 开发语言
一、环境操作系统DeepinV23Qt版本6.8.2编程语言C++二、问题现象QtforWebAssembly应用在浏览器页面上英文字母显示正常，中文显示为乱码。经测试分析原因为默认字体不能正常显示汉字。三、处理过程1.准备中文字体文件从Windows下复制宋体简体字体文件。C:\Windows\Fonts\simsun.ttc2.添加资源文件resources.qrcsimsun.ttc3.Qt
如何使用百度云Qianfan进行AI应用开发 dgay_hua 百度云人工智能云计算 python
技术背景介绍百度云Qianfan是由百度公司提供的云服务，包含了云存储、文件管理、资源共享、以及第三方集成等功能。作为开发者，Qianfan支持多种AI应用开发组件，包括大语言模型（LLMs）、对话模型、嵌入模型和向量存储等。本文将重点介绍如何利用这些组件进行实际的AI应用开发。核心原理解析百度云Qianfan通过其丰富的API接口和云计算能力，为开发者提供了易于集成的AI开发环境。核心组件如Qi
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
hdc工具安装、常用命令及使用技巧 MardaWang HarmonyOS NEXT harmonyos 华为
介绍：hdc（OpenHarmonyDeviceConnector）是为开发人员提供的用于设备连接调试的命令行工具，该工具需支持部署在Windows/Linux/Mac等系统上与OpenHarmony设备（或模拟器）进行连接调试通信。简单来讲，hdc是OpenHarmony提供的用于开发人员调试硬件、应用的命令行工具，用在电脑与开发板之间的交互。hdc适用于OpenHarmony应用、硬件开发及测
连接mysql：Error: connect ECONNREFUSED ::1:3306 at TCPConnectWrap mysqlexpress
问题描述笔者把服务器上的node，从14升级到18再次使用express的连接池连接mysql的时候（mysql版本：2.18.1）出现连接不上的报错报错信息如下：Error:connectECONNREFUSED::1:3306atTCPConnectWrap.afterConnect[asoncomplete](node:net:1555:16)--------------------atPr
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析 Coderabo DeepSeek R1模型企业级应用架构 DeepSeek-R1
DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x
JDBC:Apache DBUtils的使用恒奇恒毅 JavaSE
•commons-dbutils是Apache组织提供的一个开源JDBC工具类库，它是对JDBC的简单封装，学习成本极低，并且使用dbutils能极大简化jdbc编码的工作量，同时也不会影响程序的性能。•API介绍：–org.apache.commons.dbutils.QueryRunner–org.apache.commons.dbutils.ResultSetHandler以及一些实现类–工
Java：Apache HttpClient中HttpRoute用法的介绍 netyeaxi Java java apache 开发语言
当使用ApacheHttpClient组件时，经常会用到它的连接池组件。典型的代码如下：PoolingHttpClientConnectionManagerconnectionManager=newPoolingHttpClientConnectionManager();connectionManager.setMaxTotal(httpConfig.getMaxPoolTotal());conn
Python笔记——DeprecationWarning 小橘猫cate Python python 开发语言
定义如下阶跃函数时出现警告，defstep_function(x):returnnp.array(x>0,dtype=np.int)DeprecationWarning:`np.int`isadeprecatedaliasforthebuiltin`int`.Tosilencethiswarning,use`int`byitself.Doingthiswillnotmodifyanybehavio
GEO：在AI时代抢占DeepSeekC位？白雪讲堂人工智能
前言：当SEO遇见AGI——一场静默的流量革命在生成式AI日均处理53亿次查询的今天，传统SEO的「关键词-排名-点击」逻辑正在崩塌。DeepSeek、ChatGPT、豆包等大模型用动态生成的答案，悄然截流了68%的搜索需求。更残酷的是：当用户问"某个产品推荐"时，AI可能同时调用37个信源，却不会留下任何可追踪的搜索痕迹。这场革命迫使企业必须从「关键词优化」转向「场景占领」，从「流量争夺」进化到
table合并行花归去 vue3 element vue.js javascript elementui
{{scope.row.gdLength/10}}importtype{TableColumnCtx}from'element-plus';consttableData=[{"id":6140,"projectId":1306,"projectName":"","sectionId":12985,"sectionName":"YYZQ-9标","tunnelId":96160,"tunnelNam
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
linux防火墙多个多个ip配置,网络中多网卡和多ip中的高可用没伞请奔跑i linux防火墙多个多个ip配置
一、虚拟网卡实现一个网卡多个地址1、单个网卡实现多个ipv4地址，只需要在该网卡的配置文件的目录新增网卡配置文件即可。进入网卡"eth0"的目录下2、新增网卡配置文件"ifcfg-eth0:0"和"ifcfg-eth0:1"3、关掉NetworkManager服务4、重启网卡，让系统重读配置网卡配置文件5、使用ifconfig命令查看在线的网卡ip地址二、多网卡bond，mode11、首先在虚拟机
腾讯云Centos Stream 9 yum源 ☆凡尘清心☆ 腾讯云 centos 云计算
1.CentOS-Stream-BaseOS.repo#CentOS-Stream-BaseOS.repo##ThemirrorlistsystemusestheconnectingIPaddressoftheclientandthe#updatestatusofeachmirrortopickcurrentmirrorsthataregeographically#closetotheclient
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
通过接收tcp命令实现程序自我重新运行 C++ 老炮儿的技术栈 tcp/ip 网络网络协议
一个用C++实现的示例程序，该程序监听TCP连接，当接收到特定的自定义协议命令（这里是"RESTART"）时，会重新运行自身。#include#include#include#include#include#include#include#include#definePORT12345#defineBUFFER_SIZE1024voidhandle_connection(intsockfd){
Netty源码—3.Reactor线程模型四东阳马生架构 Netty应用与源码 Netty Reactor线程模型
大纲5.NioEventLoop的执行总体框架6.Reactor线程执行一次事件轮询7.Reactor线程处理产生IO事件的Channel8.Reactor线程处理任务队列之添加任务9.Reactor线程处理任务队列之执行任务10.NioEventLoop总结8.Reactor线程处理任务队列之添加任务(1)Reactor线程执行一次事件轮询的过程(2)任务的分类和添加说明(3)普通任务的添加(4
Netty源码分析之Reactor线程模型详解 Java-进阶架构师 java java编程 java 后端 java-ee
在分析源码之前，我们先分析，哪些地方用到了EventLoop？NioServerSocketChannel的连接监听注册NioSocketChannel的IO事件注册NioServerSocketChannel连接监听在AbstractBootstrap类的initAndRegister()方法中，当NioServerSocketChannel初始化完成后，会调用case标记位置的代码进行注册。f
使用DeepEval进行LLM的单元测试 VYSAHF 单元测试 log4j python
在构建大语言模型（LLM）时，测试是确保模型行为和性能的关键步骤。ConfidentAI推出的DeepEval提供了一套完整的工具包，帮助开发者进行LLM的单元测试和集成测试。结合这些功能，你可以快速迭代，创建更健壮的语言模型。技术背景介绍DeepEval是ConfidentAI开发的一个包，用于语言模型的单元测试和集成测试。它的目标是让开发者能够通过合成数据创建、测试和优化模型，从而实现更高效的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
网络编程、URI和URL的区别、TCP/IP协议、IP和端口、URLConnection 述雾学java Java核心基础 tcp/ip java java基础网络编程
DAY12.1Java核心基础网络编程在互联网时代，网络在生活中处处可见，javaWeb占据了很大一部分那如何实现javaWeb编程呢？Web编程就是运行在同一个网络下面的终端，使得它们之间可以进行数据传输计算机网络基本知识计算机网络是通过硬件设施，传输媒介把不同物理地址上的计算机网络进行连接，形成一个资源共享和数据传输的网络系统两台终端进行连接需要遵守规定的网络协议语法：数据信息的结构语义：描述
AI学习教程DeepSeek使用教程合集免费下载 oneboxai 学习
1.DeepSeek本地部署2.Deepseek搭建个人知识库3.DeepSeek提示词详解4.Deepseek使用技巧大全5.DeepSeek提示词大全6.DeepSeek保姆级新手教程7.DeepSeek各类应用8.Deepseek写小说9.DeepSeekV3部署教程10.DeepseekwordExcel11.Deepseek科研论文12.Deepseek开发游戏13.大模型通用一-A1指
MTK ADSP yyc_audio 嵌入式硬件
MTK音频硬件概念AFE：音频前端硬件audiofrontendhwAFEMEMIF(FE):PCMDMA,memoryread/writeAudiointerconnection:connectionfabricforaudiosubmodule。核心路由器件。负责FE和BE之间的连接和路由。DAI(BE):DigitalAudioI/F,eTDM/I2S/DMIC.–EnhancedTDM,c
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在