LDA计算复杂,不太适应大数据量计算。word2vec将词投射到向量上,使得词之间的远近程度易于计算,很容易表示同义词、近义词。
以1个词为输入,通过D维投射层,以及分类器(softmax或log-linear),让该词分到前后若干个词之间。前后词个数越多,模型的准确性越高,但计算量也越大。具有相同上下文的两个词,认为这两个词相似。

skip-gram结构图
word2vec的目标函数是这样的,对于每个词,使得它在上下文词的条件下出现的概率最大,即对数似然函数:
其中
假设词汇数有V个,那么的计算复杂的就为V。为了简化计算,通常的做法采用层次softmax算法,即引入哈夫曼(Huffman code)二叉树,使得复杂度变为logV。不过付出的代价是人为增强了词与词之间的耦合性。例如一个word出现的条件概率的变化,会影响到其路径上所有非叶节点的概率变化,间接地对其他word出现的条件概率带来不同程度的影响。所以Hierarchical Softmax方法和原始问题并不是等价的,但是这种近似并不会显著带来性能上的损失同时又使得模型的求解规模显著上升。
它以各词在语料中的频数当权值构造出来的哈夫曼树。
左子树为1,右子树为-1.
continuous bagof words
log-linear分类器,让中间的词获得正确的分类。通常的做法是前面4个词、后面4个词,中间1个词,这个词就是要分类的词。
训练复杂度为:
Q = N*D + D*log2(V )
其中,N为当前输入层的维度(词个数),D为投射层(projection layer)的维度,V为词典数。
CBOW结构图
1.2 Negative Sampling
噪声采样,目的是为了增强模型的鲁棒性。
其目标函数为:
其中
对于小数据量,K建议设为5-20;对于大数据量,K建议设为2-5.
Pn(w) 表示类均匀分别函数,例如U(w)3/4/Z
低频词去掉(如阈值5);高频词按如下概率去掉,公式如下:
其中,t为高频词阈值,如10-5, f(w)表示词频。其中
f(wi)f(wi)是词wiwi的词频,t是阈值。而这个是Mikolov论文里的说法,实际Word2Vec的代码,以及后续gensim的实现,都采用了如下公式来表示词wiwi被丢弃的概率:
P(wi)=1−(√vwisample∗NW+1)∗sample∗NWvwi
或者这样写看起来简洁一些:
P(wi)=1−(√sample∗NWvwi+sample∗NWvwi)
其中:NW是参与训练的单词总数,包含重复单词,实质即词频累加;vwi是词wi的词频。在gensim的实现中,对sample<1和sample≥1的情况区分对待,具体可去看gensim版源码。
(1)语义(semantic)和句法(syntactic)准确性大概可达50-60%,skip-gram要比连续词袋模型综合上准确性高。
(2)Skip-gram +RNNLMs的准确性最高,比单纯的skip-gram高10%左右,但是训练速度慢大概10倍。
(3)词投射后的向量维度越高,准确性也越高。提高5%左右准确性。
doc2vec算法步骤:
1) 获得word2vec;
2) 通过word2vec,连接文本中的词向量,获得文本的初始向量
3) 把文本当作一个词向量看待,按word2vec相同的方法,训练文本向量,此时只更新文本向量,词向量固定。其训练方法就是,对于一篇文本,上面的词,所分类的结果,不仅要得到上下文的词,还要增加个文本向量。