Doc2Vec Model

介绍

论文: https://cs.stanford.edu/~quocle/paragraph_vector.pdf
之前总结了word2vec的基本思想。现在考虑一个非常实际的问题:我们要对一些短文本进行情感分析(比如IMDB 数据集),在数据处理的很多时候都需要文本数据是定长的,这样就有了一些问题,我们知道短文本(比如微博,微博评论数据, 商品评论数据等)的长度是不固定的,纵使我们训练出了固定长度的词向量,但是需要进行处理的数据基本单位却是文本数据。如何将这些不定长的文本表示为一个定长的向量?并且这个向量要能够尽可能地体现文本的情感状况?
Doc2Vec 的思想很大程度上借鉴了Word2Vec 的思想。

Doc2Vec 思想

在word2vec model 有一个重要的思想就是利用周围的词去预测某个出现的单词。我们可以将这种思想迁移到doc2vec的训练中来。在doc2vec model中,每一个段落(也有可能是一篇文章,不同情况下表示不同)都分配一个paragrah id, 这也是一个和词向量维度相同的向量。paragraph vector 和 word vector 一起,参与到预测下一个单词的过程中。所以,结合之前的word2vec 训练过程,唯一不同的就是h 是由词向量(W) 和段落向量(D)共同决定的。

Doc2Vec Model_第1张图片
图一

注意: word vector 的值在每一次的训练过程中都是共享的。但是如果paragrah表示的是文章的话,在一篇文章内,段落向量的值是共享的,其他情况下不共享。

gensim Doc2Vec 方法探索

你可能感兴趣的:(Doc2Vec Model)