word2vec,CBOW和Skip-gram

CBOW

给出一个词的上下文,得到这个词

Skip-gram

给出一个词,得到这个词的上下文

word2vec,CBOW和Skip-gram_第1张图片

Word2Vec:softmax(w1(xQ)+b1)

CBOW和Skip-gram两种架构的重点都是得到一个Q矩阵

CBOW:一个老师告诉多个学生,Q矩阵怎么变

Skip-gram:多个老师告诉一个学生,Q矩阵怎么变

NNLM神经语言模型:重点是预测下一词,双层感知机softmax(w2tanh(w1(xQ)+b1)+b2)

word2vec,CBOW和Skip-gram_第2张图片

word2vec,CBOW和Skip-gram_第3张图片

word2vec,CBOW和Skip-gram_第4张图片

词向量的量级比字向量大很多

1*50 是embedding num ,就是用多少数字表示一个字

 

高维->低维 

乘W2再和原本形状一致

one-hot构建好一个词典,

对于word2vec,无论是周边词预测中心词,还是中心词预测周边词的预测方式,周边词的方式都可以看成是Bog of words的模式。这种模式有两个问题:

没有考虑词序问题

受限于window窗口大小的限制,不能考虑整个句子中所有词的相关性

对于Bert,利用transformer中的注意力方法和mask language model的训练,以及embedding中编码了词序信息。通过以上的方式,实现了同时考虑上下文(Bidirectional)及词序信息,实现对word的embedding。

你可能感兴趣的:(NLP,人工智能,深度学习)