Doc2vec笔记

参考文献:Distributed Representations of Sentences and Documents

Doc2vec的思想是建立在word2vec的基础上,认为一个单词对语句的贡献不仅在于自身的向量,还有一个共同的向量paragraph matrix来进行学习,主要思想如下图所示:

相对于word2vec,doc2vec也有两个版本,上面的是skip-gram的版本,下面的是CBOW版本:


总体上,训练过程中的步骤有两步:

1. 通过训练得到单词向量,以及多分类(softmax)参数变量,还有当前的doc 向量

2. 是通过已经训练好的单词向量和多分类参数变量,来得到新的段落或者语句的向量:方法是在保持单词向量和分类参数变量不变的情况下,利用后向传播算法学习出新的段落向量。

你可能感兴趣的:(Doc2vec笔记)