word2vec 中CBOW和skip-gram随笔

神经网络处理文本时处理的为数据元素不能直接处理文本,因此考虑将文本转换成数字,起初使用one-hot对词进行表示,但存在着稀疏的缺点,因此使用词向量的形式进行表示词。
word2vec有两种生成词向量的方式,CBOW和skip-gram
CBOW是输入上下文one-hot形式,输出需要预测的词的one-hot形式,相当于一个多分类。
skip-gram是输入one-hoe形式,输出一个多词的0-1值形式,相当于一个多标签。
CBOW和skip-gram训练参数有一个[词汇数,词向量维度]的矩阵,这个矩阵就是我们所需要的词向量。

你可能感兴趣的:(word2vec 中CBOW和skip-gram随笔)