doc2vec的深入研究以及实验探索(一)

1.doc2vec的基本原理

      doc2vec运用了基于神经网络概率语言模型的自然语言处理技术,其处理过程是:先对足够丰富的语料库中的语料进行分词,形成语料库词典,然后利用神经网络概率语言模型进行语料的训练,最后为词典中的每个词形成一个多维(一般50-100维)的词向量,而通过计算这些词向量,就反映了词向量对应的词的关系,并且进一步扩展到文本的对应关系上。

      word2vec词向量语言模型就是基于神经网络概率模型,在隐含层,釆取了CBOW(Continuous Bag-of-word model)技术和skip-gram技术,这两种技术比NNLM更简单,CBOW和skip-gram分别对应不同的word2vec模型。

      CBOW技术是利用上下文预测当前词出现的概率,skip-gram技术允许某些词被“跳过”,而不像CBOW那样按照顺序来。被跳过的结果就是语料更加丰富了,因为允许跳过的组合更多,变相增加了语料,

doc2vec的深入研究以及实验探索(一)_第1张图片

下面对CBOW和Skip-gram做一个详细的分析:

在介绍上面两个技术之前,先介绍NNLM

NNLM的基本原理:

举个例子:我爱北京 分词: 我  爱  北京  当出现了 我爱  那么后面出现北京的概率就是NNLM要求解的

目标函数:

是上下文,就像我爱就是我爱北京这句话的上文,为北京出现的概率。上下文出现的位置是不固定的,保证长度为n-1上下滑动。

NNLM的实现步骤:

doc2vec的深入研究以及实验探索(一)_第2张图片

(1)(N-1)个前向词:one-hot表示

(2)采用线性映射将one-hot表示投影到稠密D维表示,可以取出任意一个词向量(不再是独热向量,而是自己定的C的维度的向量)

doc2vec的深入研究以及实验探索(一)_第3张图片

(3)把取出的词向量拼在一起

doc2vec的深入研究以及实验探索(一)_第4张图片

(4)输出层:Softmax,计算我爱之后跟着的词的概率,最大的概率就是天安门

2 CBOW(连续词袋)

简介:

我喜欢学习机器学习,通过这句话的左右上下文,预测中间的学习

doc2vec的深入研究以及实验探索(一)_第5张图片

因为最后输出的概率维度向量维度非常大的,所以使用哈夫曼树进行化简。原来是由10个万个答案,其中就有一个是对的。现在,化简了就没有那么多了。还有一个方法是负例采样

doc2vec的深入研究以及实验探索(一)_第6张图片

使用Huffman Tree来编码输出层的词典,只需要计算路径上所有非叶子节点词向量的贡献即可, 计算量降为树的深度 V => log_2(V)。


3.Skip-gram

我喜欢学习机器学习,通过学习去预测上下文。和CBOW的方式正好相反

doc2vec的深入研究以及实验探索(一)_第7张图片

目标函数:

4.doc2vec存在的缺陷

(1)对每个local context window单独训练,没有利用包含在global co-currence矩阵中的统计信息
(2)对多义词无法很好的表示和处理,因为使用了唯一的词向量












你可能感兴趣的:(自然语言处理)