RUC_Lee

深度学习 | Word2vec原理及应用

聊聊Word2vec

1 前言
2 什么是Word2vec？

2.1 定义

2.1.1 分词的原理介绍
2.1.2 文本向量化的方式

2.2 数学原理

2.2.1 CBOW（Continuous Bag-of-Words）原理
2.2.2 Skip-Gram原理
2.2.3 为什么要有Word2vec 而不是用原来的？
2.2.4 Word2vec基础：霍夫曼树
2.2.5 Hierarchical Softmax
2.2.6 Negative Sampling

2.3 应用场景
2.4 优缺点

3 Word2vec的Python实现

3.1 导入库
3.2 读入数据
3.3 模型
3.4 应用

3.4.1 应用1
3.4.2 应用2
3.4.3 应用3
3.4.4 应用4
3.4.5 李达康的词向量
3.4.6 侯亮平的词向量

3.5 利用Python计算cosine

参考

1 前言

最近公司项目中涉及到给每个用户推荐app，而在app数据相关处理的过程中，将app变为了一个向量，最后再转变到一个用户用一个向量来表示，而这其中用到的关键技术就是Word2Vec！之前只是大概听过，现在系统性的总结一波~

2 什么是Word2vec？

2.1 定义

首先来看看维基百科定义：

Word2vec：为一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。
训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层[1]。
Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释[2][3]。

结合上述定义我们可以看到：

Word2vec用来产生词向量，但其模型为神经网络模型，词向量为模型的输入，最后是通过梯度上升法不断的优化迭代这个词向量。
Word2vec迭代产生的词向量可以自己指定向量维度

这时候不禁就会问一句，为什么要搞一个词向量？词汇为啥要表示成向量呢？

2.1.1 分词的原理介绍

在下面介绍文本向量化的时候会涉及到分词，首先介绍下分词的基本原理。

本质是一个N元模型，即目前位置的词汇和前面N个词汇有关。
在NLP中，为了简化计算，我们通常使用马尔科夫假设，即每一个分词出现的概率仅仅和前一个分词有关。
MCMC采样时，也用到了相同的假设来简化模型复杂度。使用了马尔科夫假设，则我们的联合分布就好求了。
优化求解方法：维比特算法。
- 句子过长，对应很多种分词方法的时候，直接暴力求每种出现的概率然后选最优的算法复杂度过高
- 通用的求序列最短路径的方法。用概率图来进行表示
- 应用：隐式马尔科夫模型HMM解码算法求解；最优分词求解

2.1.2 文本向量化的方式

文本无法直接参与建模进行后续分析，而转化成向量之后就可以进行！所以如何将文本变为向量就是一个大学问~

但归纳起来，可以理解为两种方式：

方式1：基于one-hot编码的变形
- 变形1：基于频数（词袋模型，BoW）的向量化表示
- 变形2：基于Hash Trick的向量化表示
- 变形3：基于TF-IDF的向量化表示
方式2：Word2vec

方式1：基于频数（词袋模型，BoW）的向量化表示

首先对预料进行分词+预设词典+去停用词
统计出所有出现的词汇，同时定义位置，如果某一句话有该位置上的词，则在该位置上的取值为 该词出现的频数！
对每句话按照上述方式进行向量化表示！

可以结合下面结果知道，这种方法本质还是one-hot，只不过这时候的1表示为频数！而不仅仅是表示有没有出现！

Python实现：

from sklearn.feature_extraction.text import CountVectorizer  
vectorizer=CountVectorizer()
corpus=["I come to China to travel", 
    "This is a car polupar in China",          
    "I love tea and Apple ",   
    "The work is to write some papers in science"] 
print (vectorizer.fit_transform(corpus))

  (0, 4)	1
  (0, 15)	2
  (0, 3)	1
  (0, 16)	1
  (1, 3)	1
  (1, 14)	1
  (1, 6)	1
  (1, 2)	1
  (1, 9)	1
  (1, 5)	1
  (2, 7)	1
  (2, 12)	1
  (2, 0)	1
  (2, 1)	1
  (3, 15)	1
  (3, 6)	1
  (3, 5)	1
  (3, 13)	1
  (3, 17)	1
  (3, 18)	1
  (3, 11)	1
  (3, 8)	1
  (3, 10)	1

按位置定义的所有词汇如下：

print (vectorizer.fit_transform(corpus).toarray())
print('词向量的维度为: ', len(vectorizer.fit_transform(corpus).toarray()[0]))
print (vectorizer.get_feature_names())

[[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0]
 [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0]
 [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0]
 [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]]
词向量的维度为:  19
['and', 'apple', 'car', 'china', 'come', 'in', 'is', 'love', 'papers', 'polupar', 'science', 'some', 'tea', 'the', 'this', 'to', 'travel', 'work', 'write']

方式2：基于Hash Trick的向量化表示

什么叫Hash Trick呢？为什么要用Hash Trick？

Hash Trick是为了避免基于词频而维度过大的情形！
首先定义一个特征Hash后对应的哈希表的大小，这个哈希表的维度会远远小于我们的词汇表的特征维度，因此可以看成是降维。
具体方法：对应任意一个特征名，我们会用Hash函数找到对应哈希表的位置，然后将该特征名对应的词频统计值累加到该哈希表位置。
变形：signed hash trick。
- 解决的问题：两个原始特征的哈希后位置在一起导致词频累加特征值突然变大
- 好处：哈希后的特征仍然是一个无偏的估计，不会导致某些哈希位置的值过大。
但Hash trick解释性比基于词频的要差。

对比基于词频的向量化+Hash Trick后的向量化：

基于词频的向量化应用场景：

词汇表的特征不太大
优势：
- 解释性很强，我们知道每一维特征对应哪一个词
- 同时还可以使用TF-IDF对各个词特征的权重修改，进一步完善特征的表示。

基于Hash Trick的向量化应用场景：

大规模机器学习
优势：
- 降维速度很快，降维后的特征仍可以帮我们完成后续的分类和聚类工作
- 解决了词汇量极大，使用向量化方法内存不够用的问题

Python实现：

将上述19维的转变为6维

from sklearn.feature_extraction.text import HashingVectorizer 
vectorizer2=HashingVectorizer(n_features = 6,norm = None)
print (vectorizer2.fit_transform(corpus))

  (0, 1)	2.0
  (0, 2)	-1.0
  (0, 4)	1.0
  (0, 5)	-1.0
  (1, 0)	1.0
  (1, 1)	1.0
  (1, 2)	-1.0
  (1, 5)	-1.0
  (2, 0)	2.0
  (2, 5)	-2.0
  (3, 0)	0.0
  (3, 1)	4.0
  (3, 2)	-1.0
  (3, 3)	1.0
  (3, 5)	-1.0

print (vectorizer2.fit_transform(corpus).toarray())
print('词向量的维度为: ', len(vectorizer2.fit_transform(corpus).toarray()[0]))

[[ 0.  2. -1.  0.  1. -1.]
 [ 1.  1. -1.  0.  0. -1.]
 [ 2.  0.  0.  0.  0. -2.]
 [ 0.  4. -1.  1.  0. -1.]]
词向量的维度为:  6

方式3：基于TF-IDF的向量化表示

首先TF-IDF在之前的博客中小编已经介绍过，详情可以戳：机器学习 | TF-IDF和TEXT-RANK的区别

在此处，大概流程和上述1很类似，就是将词频换成了该词汇的TF-IDF得分！

首先对预料进行分词+预设词典+去停用词
统计出所有出现的词汇，同时定义位置，如果某一句话有该位置上的词，则在该位置上的取值为 该词的TF-IDF得分！
对每句话按照上述方式进行向量化表示！

至于为什么基于频数进行优化也很好理解，比如有些话中to很多，词频会很大，但其意义可能并不大，TF-IDF就可以有效解决这个问题！

Python实现：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf2 = TfidfVectorizer()
corpus=["I come to China to travel", 
    "This is a car polupar in China",          
    "I love tea and Apple ",   
    "The work is to write some papers in science"] 
re = tfidf2.fit_transform(corpus)
print (re)

  (0, 16)	0.4424621378947393
  (0, 3)	0.348842231691988
  (0, 15)	0.697684463383976
  (0, 4)	0.4424621378947393
  (1, 5)	0.3574550433419527
  (1, 9)	0.45338639737285463
  (1, 2)	0.45338639737285463
  (1, 6)	0.3574550433419527
  (1, 14)	0.45338639737285463
  (1, 3)	0.3574550433419527
  (2, 1)	0.5
  (2, 0)	0.5
  (2, 12)	0.5
  (2, 7)	0.5
  (3, 10)	0.3565798233381452
  (3, 8)	0.3565798233381452
  (3, 11)	0.3565798233381452
  (3, 18)	0.3565798233381452
  (3, 17)	0.3565798233381452
  (3, 13)	0.3565798233381452
  (3, 5)	0.2811316284405006
  (3, 6)	0.2811316284405006
  (3, 15)	0.2811316284405006

向量维度以及各维度表示的含义为：

tfidf2.get_feature_names()

['and',
 'apple',
 'car',
 'china',
 'come',
 'in',
 'is',
 'love',
 'papers',
 'polupar',
 'science',
 'some',
 'tea',
 'the',
 'this',
 'to',
 'travel',
 'work',
 'write']

print('词向量的维度为: ', len(tfidf2.fit_transform(corpus).toarray()[0]))
tfidf2.fit_transform(corpus).toarray()

词向量的维度为:  19





array([[0.        , 0.        , 0.        , 0.34884223, 0.44246214,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.69768446, 0.44246214, 0.        , 0.        ],
       [0.        , 0.        , 0.4533864 , 0.35745504, 0.        ,
        0.35745504, 0.35745504, 0.        , 0.        , 0.4533864 ,
        0.        , 0.        , 0.        , 0.        , 0.4533864 ,
        0.        , 0.        , 0.        , 0.        ],
       [0.5       , 0.5       , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.5       , 0.        , 0.        ,
        0.        , 0.        , 0.5       , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.28113163, 0.28113163, 0.        , 0.35657982, 0.        ,
        0.35657982, 0.35657982, 0.        , 0.35657982, 0.        ,
        0.28113163, 0.        , 0.35657982, 0.35657982]])

可以看到此时to就没有this重要，虽然频数大！

方式4：Word2vec

归结起来，Word2vec为2种模型+2种求解优化方法，故总共为4种方案，下面在数学原理篇将进行详细介绍！

2.2 数学原理

2种模型：CBOW和Skip-Gram
2种求解优化方法：Hierarchical Softmax和Negative Sampling

首先在Word2vec之前已经有两种模型在做词向量的工作，那就是CBOW和Skip-Gram，而Word2vec就是在这个基础上加入了两种优化方法：Hierarchical Softmax和Negative Sampling，于是就产生了4种Word2vec模型：

CBOW+Hierarchical Softmax
CBOW+Negative Sampling
Skip-Gram+Hierarchical Softmax
Skip-Gram+Negative Sampling

2.2.1 CBOW（Continuous Bag-of-Words）原理

模型作用：用来训练产生词向量

三层的神经网络结构（当然也可以多层），分为输入层，隐藏层和输出层(softmax层)。
训练输入：某个词的上下文相关词对应的词向量，训练输出：该词
由于CBOW使用的是词袋模型，因此这8个词都是平等的，也就是不考虑他们和我们关注的词之间的距离大小，只要在我们上下文之内即可。
CBOW神经网络模型输入层有8个神经元，输出层有词汇表大小个神经元。

举例：

训练输入：上述8个词对应的词向量（一开始先初始化8个词的词向量，后面通过神经网络不断迭代）
训练输出：learning对应词向量【训练的目标是期望训练样本特定词对应的softmax概率最大】
不断训练迭代优化词向量

最后前向计算预测的时候，

输入：某个词汇上下文的词汇的向量
输出：对应所有词汇的softmax概率

2.2.2 Skip-Gram原理

思路和上述CBOW相反，已知某个词汇，输出该词汇对应上下文。
即输入：特定的一个词的词向量；输出：特定词对应的上下文词向量。
还是上面的例子，我们的上下文大小取值为4，特定的这个词"Learning"是我们的输入，而这8个上下文词是我们的输出。
Skip-Gram神经网络模型输入层有1个神经元，输出层有词汇表大小个神经元。
训练输入：输入是特定词的词向量
训练输出：输出是上下文的8个词的词向量

最后前向计算预测的时候，

输入：某个词汇的词向量
输出：概率大小排前8的softmax概率对应的神经元所对应的词即可。

2.2.3 为什么要有Word2vec 而不是用原来的？

原因是传统的DNN算法最后输出层是softmax激活函数，并且输出层为词汇表大小的神经元，因此计算量太大！效率低！
总结就是：DNN的输出层需要进行softmax计算各个词的输出概率的的计算量很大。

2.2.4 Word2vec基础：霍夫曼树

Word2vec数据结构是用霍夫曼树来代替隐藏层和输出层的神经元

霍夫曼树的叶子节点起到输出层神经元的作用
叶子节点的个数即为词汇表的大小
内部节点则起到隐藏层神经元的作用

建立过程：

建立树ok之后，我们进行编码：

约定左子树编码为1，右子树编码为0，同时约定左子树的权重不小于右子树的权重。
权重高的叶子节点越靠近根节点，而权重低的叶子节点会远离根节点，这样我们的高权重节点编码值较短，而低权重值编码值较长。
保证树的带权路径最短，也符合我们的信息论，即我们希望越常用的词拥有更短的编码。

具体见下图：

2.2.5 Hierarchical Softmax

优化1：对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法

优化2：从隐藏层到输出的softmax层这里的计算量改进。

避免要计算所有词的softmax概率
采用了霍夫曼树来代替从隐藏层到输出softmax层的映射（softmax概率计算只需要沿着树形结构进行就可以了，二叉树）
如何“沿着霍夫曼树一步步完成”呢？在word2vec中，我们采用了二元逻辑回归的方法，即规定沿着左子树走，那么就是负类(霍夫曼树编码1)，沿着右子树走，那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数

CBOW+Hierarchical Softmax：梯度迭代使用了随机梯度上升法

Skip-Gram+Hierarchical Softmax：梯度迭代使用了随机梯度上升法

2.2.6 Negative Sampling

为什么有上面Hierarchical Softmax还要有Negative Sampling呢？因为它也有自身的局限性。

Hierarchical Softmax的优缺点为：

优点：使用霍夫曼树来代替传统的神经网络，可以提高模型训练的效率
缺点：如果我们的训练样本里的中心词?是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。

那我们来看看Negative Sampling，听这个名字大家就可以看出，这是一种采样的方法，如何采样呢？

比如我们有一个训练样本，中心词是?,它周围上下文共有2?个词，记为???????(?)。
由于这个中心词?,的确和???????(?)相关存在，因此它是一个真实的正例。通过Negative Sampling采样，我们得到neg个和?不同的中心词??,?=1,2,…???，这样???????(?)和??就组成了neg个并不真实存在的负例。【所以是通过取不同的中心词，原有的中心词对应的就是正样本】
利用这一个正例和neg个负例，我们进行二元逻辑回归，得到负采样对应每个词??对应的模型参数??，和每个词的词向量。

接下来有两个问题：

如何做逻辑回归？正常的套路！
如何选取其余的中心词做负采样？
- 如果词汇表的大小为?,那么我们就将一段长度为1的线段分成?份，每份对应词汇表中的一个词。
- 每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。

CBOW+Negative Sampling

Skip-Gram+Negative Sampling

2.3 应用场景

word2vec的主要的应用还是自然语言的处理，通过训练出来的词向量，可以进行聚类等处理，或者作为其他深度学习的输入。
word2vec还适用于一些时序数据的挖掘，比如用户商品的浏览分析、用户APP的下载等，通过这些数据的分析，可以得到商品或者APP的向量表示，从而用于个性化搜索和推荐。

2.4 优缺点

优点：

word2vec通过一系列的模型和框架对原有的NNLM进行优化，简化了计算但准确度还是保持得很好

缺点：

解释性较差。

3 Word2vec的Python实现

3.1 导入库

import numpy as np
import gensim

from gensim.models import word2vec

import jieba
import jieba.analyse

jieba.suggest_freq('沙瑞金', True)
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/vx/np6lccw52hdfcz_2qswpfhch0000gn/T/jieba.cache
Loading model cost 1.243 seconds.
Prefix dict has been built succesfully.
1

3.2 读入数据

with open('./in_the_name_of_people.txt',encoding='utf-8') as f:
    document = f.read()
    
    #document_decode = document.decode('GBK')
    
    document_cut = jieba.cut(document)
    #print  ' '.join(jieba_cut)  //如果打印结果，则分词效果消失，后面的result无法显示
    result = ' '.join(document_cut)
#     result = result.encode('utf-8')
    with open('./in_the_name_of_people_segment.txt', 'w', encoding='utf-8') as f2:
        f2.write(result)
f.close()
f2.close()

3.3 模型

# import modules & set up logging
import logging
import os
from gensim.models import word2vec

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = word2vec.LineSentence('./in_the_name_of_people_segment.txt') 

model = word2vec.Word2Vec(sentences, hs=1,min_count=1,window=3,size=100)

'''
1、模型默认用CBOW【即已知上下文 求中间的！】 sg=0
2、优化方法默认用negative sampling hs=0  而hs=1表示用hierarchical softmax
3、词向量的默认为：size 即100 [Dimensionality of the word vectors]
'''

2019-08-18 17:20:52,719 : INFO : collecting all words and their counts
2019-08-18 17:20:52,722 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2019-08-18 17:20:52,815 : INFO : collected 17878 word types from a corpus of 161343 raw words and 2311 sentences
2019-08-18 17:20:52,816 : INFO : Loading a fresh vocabulary
2019-08-18 17:20:52,850 : INFO : effective_min_count=1 retains 17878 unique words (100% of original 17878, drops 0)
2019-08-18 17:20:52,852 : INFO : effective_min_count=1 leaves 161343 word corpus (100% of original 161343, drops 0)
2019-08-18 17:20:52,919 : INFO : deleting the raw counts dictionary of 17878 items
2019-08-18 17:20:52,923 : INFO : sample=0.001 downsamples 38 most-common words
2019-08-18 17:20:52,924 : INFO : downsampling leaves estimated 120578 word corpus (74.7% of prior 161343)
2019-08-18 17:20:52,944 : INFO : constructing a huffman tree from 17878 words
2019-08-18 17:20:53,601 : INFO : built huffman tree with maximum node depth 17
2019-08-18 17:20:53,645 : INFO : estimated required memory for 17878 words and 100 dimensions: 33968200 bytes
2019-08-18 17:20:53,647 : INFO : resetting layer weights
2019-08-18 17:20:54,001 : INFO : training model with 3 workers on 17878 vocabulary and 100 features, using sg=0 hs=1 sample=0.001 negative=5 window=3
2019-08-18 17:20:54,373 : INFO : worker thread finished; awaiting finish of 2 more threads
2019-08-18 17:20:54,387 : INFO : worker thread finished; awaiting finish of 1 more threads
2019-08-18 17:20:54,399 : INFO : worker thread finished; awaiting finish of 0 more threads
2019-08-18 17:20:54,401 : INFO : EPOCH - 1 : training on 161343 raw words (120392 effective words) took 0.4s, 305531 effective words/s
2019-08-18 17:20:54,678 : INFO : worker thread finished; awaiting finish of 2 more threads
2019-08-18 17:20:54,686 : INFO : worker thread finished; awaiting finish of 1 more threads
2019-08-18 17:20:54,693 : INFO : worker thread finished; awaiting finish of 0 more threads
2019-08-18 17:20:54,694 : INFO : EPOCH - 2 : training on 161343 raw words (120560 effective words) took 0.3s, 417119 effective words/s
2019-08-18 17:20:54,893 : INFO : worker thread finished; awaiting finish of 2 more threads
2019-08-18 17:20:54,894 : INFO : worker thread finished; awaiting finish of 1 more threads
2019-08-18 17:20:54,907 : INFO : worker thread finished; awaiting finish of 0 more threads
2019-08-18 17:20:54,908 : INFO : EPOCH - 3 : training on 161343 raw words (120517 effective words) took 0.2s, 567584 effective words/s
2019-08-18 17:20:55,198 : INFO : worker thread finished; awaiting finish of 2 more threads
2019-08-18 17:20:55,207 : INFO : worker thread finished; awaiting finish of 1 more threads
2019-08-18 17:20:55,218 : INFO : worker thread finished; awaiting finish of 0 more threads
2019-08-18 17:20:55,219 : INFO : EPOCH - 4 : training on 161343 raw words (120712 effective words) took 0.3s, 391368 effective words/s
2019-08-18 17:20:55,526 : INFO : worker thread finished; awaiting finish of 2 more threads
2019-08-18 17:20:55,533 : INFO : worker thread finished; awaiting finish of 1 more threads
2019-08-18 17:20:55,553 : INFO : worker thread finished; awaiting finish of 0 more threads
2019-08-18 17:20:55,554 : INFO : EPOCH - 5 : training on 161343 raw words (120478 effective words) took 0.3s, 362484 effective words/s
2019-08-18 17:20:55,555 : INFO : training on a 806715 raw words (602659 effective words) took 1.6s, 388087 effective words/s

3.4 应用

3.4.1 应用1

找出某一个词向量最相近的词集合

req_count = 5
for key in model.wv.similar_by_word('李达康', topn =100):
    if len(key[0])==3:
        req_count -= 1
        print (key[0], key[1])
        if req_count == 0:
            break;

2019-08-18 17:21:44,506 : INFO : precomputing L2-norms of word weight vectors


侯亮平 0.9604056477546692
欧阳菁 0.9600167274475098
蔡成功 0.9599809646606445
刘新建 0.9572819471359253
祁同伟 0.9565152525901794


/Users/apple/anaconda3/lib/python3.6/site-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):

req_count = 5
for key in model.wv.similar_by_word('沙瑞金', topn =100):
    if len(key[0])==3:
        req_count -= 1
        print (key[0], key[1])
        if req_count == 0:
            break;

高育良 0.9720388650894165
田国富 0.9549083709716797
易学习 0.9494497776031494
李达康 0.9454081058502197
侯亮平 0.9189556241035461


/Users/apple/anaconda3/lib/python3.6/site-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):

3.4.2 应用2

看两个词向量的相近程度

print (model.wv.similarity('沙瑞金', '高育良'))
print (model.wv.similarity('李达康', '王大路'))

0.9720388
0.9373346


/Users/apple/anaconda3/lib/python3.6/site-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):

print (model.wv.similarity('沙瑞金', '刘庆祝'))

0.8436507


/Users/apple/anaconda3/lib/python3.6/site-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):

3.4.3 应用3

找出不同类的词

print (model.wv.doesnt_match("沙瑞金 高育良 李达康 刘庆祝".split()))

刘庆祝


/Users/apple/anaconda3/lib/python3.6/site-packages/gensim/matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int64 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):

刘庆祝和另外三个人不是同一类人！

3.4.4 应用4

得到词向量

# 语料库有多少单词
model.corpus_total_words

model.corpus_count

model.vocabulary

3.4.5 李达康的词向量

model['李达康']

/Users/apple/anaconda3/lib/python3.6/site-packages/ipykernel/__main__.py:1: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
  if __name__ == '__main__':





array([-0.0870866 ,  0.05248798, -0.28147143, -0.32899868, -0.24419424,
       -0.26717356,  0.68835247,  0.4199263 ,  0.07673895,  0.34578642,
       -0.18166232, -0.64018744,  0.0661103 ,  1.3144252 ,  0.23052616,
       -0.9842175 ,  0.16689244, -1.0376722 , -0.6779322 , -0.08552188,
        0.8821609 ,  0.85630375,  0.70850575,  0.02350087, -0.26186958,
       -0.19465029, -0.5280784 ,  0.02718589, -0.22725886,  0.584188  ,
       -0.22170487,  0.17096068,  0.22743836, -0.58258903, -0.8521926 ,
        0.01146634,  0.17366898, -0.20080233,  0.49060255, -0.0892161 ,
        0.2798695 , -0.48753452, -0.26934424, -0.28810668, -0.50305516,
       -0.52781904, -1.0276003 , -0.29357475, -0.5148399 , -0.99778444,
        0.82347995, -0.17103711,  0.45900956, -0.25982574, -0.10443403,
       -0.43294677, -0.03601839,  0.23268174, -0.0897947 , -0.30117008,
        0.13093895, -0.04065455,  0.98853856, -0.19679072,  0.02730171,
       -0.39002168, -0.86443186, -0.30278337, -0.35015163,  0.45706993,
       -0.35796672, -0.5281926 ,  0.4609695 , -0.16861178, -0.4281448 ,
       -0.05549743,  0.30860028, -0.33855316, -0.8916333 ,  0.77231795,
       -0.45779762,  0.29819477, -0.05069054,  0.41183752, -0.25177717,
       -0.20057783,  0.53893435,  0.13017803,  0.8262993 ,  0.77265227,
       -0.57259095, -0.02957028, -0.03229868,  0.4734169 ,  0.02673261,
       -0.56793886,  0.48301852, -0.14260153, -0.21643269,  0.4321306 ],
      dtype=float32)

len(model['李达康'])

/Users/apple/anaconda3/lib/python3.6/site-packages/ipykernel/__main__.py:1: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
  if __name__ == '__main__':





100

3.4.6 侯亮平的词向量

model['侯亮平']

/Users/apple/anaconda3/lib/python3.6/site-packages/ipykernel/__main__.py:1: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
  if __name__ == '__main__':





array([-0.27619898,  0.27101442, -0.3888319 , -0.21565337, -0.1988687 ,
       -0.21134071,  0.58008534,  0.6338025 ,  0.26411813,  0.300347  ,
        0.0545746 , -0.7266006 , -0.06810553,  1.4180936 ,  0.04470716,
       -1.2312315 ,  0.2570867 , -1.356324  , -0.74197394, -0.03976419,
        0.89614266,  0.73904985,  0.9443898 ,  0.13467237, -0.09986281,
       -0.27338284, -0.6192025 , -0.19986346, -0.3509883 ,  0.8633056 ,
       -0.1322346 ,  0.02944488,  0.00851353, -0.8523627 , -0.69786495,
        0.17855184,  0.27958298, -0.1690526 ,  0.74027956, -0.09224971,
        0.27419734, -0.6110898 , -0.45265457, -0.33315966, -0.5103257 ,
       -0.63461596, -1.1950399 ,  0.09368438, -0.29370093, -1.0550132 ,
        0.93446714, -0.30718964,  0.6203983 , -0.26469257, -0.3890905 ,
       -0.34891984, -0.02781189,  0.56555355,  0.03353672, -0.03311604,
       -0.03772071,  0.28559205,  1.2120959 , -0.19666088,  0.21143027,
       -0.7012241 , -1.0564705 , -0.24415188, -0.35654724,  0.54533786,
       -0.70228875, -0.6307003 ,  0.5166867 , -0.3769945 , -0.25609592,
       -0.09554568,  0.2651889 , -0.56329715, -1.3013954 ,  0.9396692 ,
       -0.38046873,  0.25952345, -0.18691233,  0.3837758 , -0.557426  ,
       -0.388514  ,  0.68085045,  0.12305634,  1.1934747 ,  0.73448956,
       -0.6552626 ,  0.00999391,  0.10919277,  0.717848  ,  0.0193353 ,
       -0.6280944 ,  0.39228523,  0.05402936, -0.11338637,  0.58770233],
      dtype=float32)

len(model['侯亮平'])

/Users/apple/anaconda3/lib/python3.6/site-packages/ipykernel/__main__.py:1: DeprecationWarning: Call to deprecated `__getitem__` (Method will be removed in 4.0.0, use self.wv.__getitem__() instead).
  if __name__ == '__main__':





100

3.5 利用Python计算cosine

import numpy as np


def cos_sim(vector_a, vector_b):
    """
    计算两个向量之间的余弦相似度
    :param vector_a: 向量 a 
    :param vector_b: 向量 b
    :return: sim
    """
    vector_a = np.mat(vector_a)
    vector_b = np.mat(vector_b)
    num = float(vector_a * vector_b.T) # 两个向量乘积
    denom = np.linalg.norm(vector_a) * np.linalg.norm(vector_b) # 两个向量各自模长的乘积
    cos = num / denom 
    sim = 0.5 + 0.5 * cos # 归一化
    return sim

参考

wiki：https://zh.wikipedia.org/wiki/Word2vec
文本挖掘预处理之向量化与Hash Trick：https://www.cnblogs.com/pinard/p/6688348.html
文本挖掘预处理之TF-IDF:https://www.cnblogs.com/pinard/p/6693230.html
文本挖掘的分词原理：https://www.cnblogs.com/pinard/p/6677078.html
word2vec原理(一) CBOW与Skip-Gram模型基础：https://www.cnblogs.com/pinard/p/7160330.html
word2vec原理(二) 基于Hierarchical Softmax的模型：https://www.cnblogs.com/pinard/p/7243513.html
word2vec原理(三) 基于Negative Sampling的模型:https://www.cnblogs.com/pinard/p/7249903.html
word2vec学习小记:https://www.jianshu.com/p/418f27df3968
用gensim学习word2vec:https://www.cnblogs.com/pinard/p/7278324.html

你可能感兴趣的:(Python,机器学习,深度学习)

31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
一篇文章教会你用Python爬取淘宝评论数据【淘宝商品评论数据接口参数】 Tinalee-电商API接口呀主流电商数据采集API接口淘宝天猫商品API接口淘宝商品评论API接口 python 开发语言人工智能大数据爬虫 java
【一、项目简介】本文主要目标是采集淘宝的评价，找出客户所需要的功能。统计客户评价上面夸哪个功能多，比如防水，容量大，好看等等。【二·淘宝/天猫获得淘宝商品评论API返回值】item_review-获得淘宝商品评论taobao.item_review公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的