word2vec论文学习

     Word2Vec是2003年由Tomas Mikolov提出的,有兴趣的可以阅读下论文《Efficient Estimation of Word Representations in Vector Space》,Word2Vec主要包含CBOW和Skip-gram两种架构,这两种架构与传统神经网络的区别在于没有隐含层,增加了投影层,具体结构如下图:

word2vec论文学习_第1张图片

      CBOW(Continuous Bag Of Words)是根据周围词预测中心词,输入层到隐含层的权重相同,单词的顺序不会影响投影权重,各个周围词加权到投影层然后取平均值,得到中心词。训练样本特征为各个周围词,label为中心词,优化目标是中心词概率尽可能大,训练复杂度Q为(N表示周围词数量,D表示投影层大小,V表示词汇表大小):

      Skip-gram是根据中心词预测周围词,实验表明周围词距离C越大,生成的词向量效果越好,但是计算代价更大,一般我们对距离中心词比较远的词进行采样以获得更少的训练样本。训练样本特征为中心词,label为各个周围词,对每个周围词label进行分类预测,训练复杂度Q为:

你可能感兴趣的:(word2vec论文学习)