CBOW 与 skip-gram

skip-gram结构是利用中间词预测邻近词

cbow模型是利用上下文词预测中间词

一、CBOW

1、

CBOW之所以叫连续词袋模型,是因为在每个窗口内它也不考虑词序信息,因为它是直接把上下文的词向量相加了,自然就损失了词序信息。CBOW抛弃了词序信息,指的就是在每个窗口内部上下文直接相加而没有考虑词序。

2、CBOW过程

简单介绍如下(实际算法会用到哈夫曼编码等降维技巧,这里仅以理解为目的简介基本原理):

  1. 输入为CV维的vector。其中C为上下文窗口的大小,V为原始编码空间的规模。例如,示例中的C=2V=4.两个vector分别为4维的Heisone-hot编码形式;
  2. 激活函数相当简单,在输入层和隐藏层之间,每个input vector分别乘以一个VxN维度的矩阵,得到后的向量各个维度做平均,得到隐藏层的权重。隐藏层乘以一个NxV维度的矩阵,得到output layer的权重;
  3. 隐藏层的维度设置为理想中压缩后的词向量维度。示例中假设我们想把原始的4维的原始one-hot编码维度压缩到2维,那么N=2
  4. 输出层是一个softmax层,用于组合输出概率。所谓的损失函数,就是这个outputtarget之间的的差(outputV维向量和input vectorone-hot编码向量的差),该神经网络的目的就是最小化这个loss
  5. 优化结束后,隐藏层的N维向量就可以作为Word-Embedding的结果。

如此一来,便得到了既携带上下文信息,又经过压缩的稠密词向量(维度经过压缩便于运算)。

输入层(C × V)——> 输入*矩阵W(V × N)得到隐藏层——> 平均 ——> * W' (N × V)——> 输出层 ——> softmax 

3、

CBOW 与 skip-gram_第1张图片

CBOW 与 skip-gram_第2张图片

CBOW模型窗口内部抛弃了词序信息,对语言来说语序是很重要的,‘我爱你’的词袋特征是‘我’ ‘爱’ ‘你’ ,‘你爱我’的词袋特征是‘你’ ‘爱’ ‘我’,这两个句子的特征是完全相同的,但是这两个句子的语义是不一样的,如果在CBOW窗口内加入n-gram特征(比如2-gram)就会得到额外的信息,第一个句子的2gram特征是‘我爱’和‘爱你’,第二个句子的特征是‘你爱’ 和‘爱我’,这样就把上下文完全相同的两个句子区分开了,这种做法就是fastText的做法。

二、skip-gram

1、核心:

        通过查看所有语料的词作为中心词时,其(中心词)与上下文的2m个词语的所有共现情况,这样就得到我们要逼近的中心词与上下文对应关系的条件概率分布(这个概率分布是忽视掉了上下文词语间的顺序的),我们通过模型去训练出词典中心词向量矩阵和词典上下文词向量矩阵(这两个矩阵就是存储了语料中中心词与其上下文的对应关系信息)。

2、【窗口大小(上下文词语数量m)】

  即指定中心词后我们关注的上下文数量定为该中心词前m个词和后m个词(一共2m个上下文词)。

3、【词典中心词向量矩阵(下图d×V维的 W 矩阵)】

  通俗来说词典中心词向量矩阵是由词典中的一个单词的词向量组合而成的(每一列就是词典中的一个单词的词向量),而每一个词的词向量就是假设我们的词典包含了d个维度的抽象信息。

4、【词典上下文词向量矩阵(下图的V×d维的 W' 矩阵)】

  类似词典中心词向量矩阵,但这里的词向量中d个维度储存的抽象信息,是作为上下文的词而言,它与中心词之间的对应关系信息。

5、【最后Softmax归一化后输出的概率向量(下图p(x|c)】

  就是词典中每个词成为当前指定中心词的上下文的概率。我们要让这个概率向量,逼近真实语料中基于指定中心词基础上这些上下文词语出现的条件概率分布。

CBOW 与 skip-gram_第3张图片

Skip-gram每一轮指定一个中心词的2m个上下文词语来训练该中心词词向量和词典上下文词向量,下一轮则指定语料中下一个中心词,查看其2m个上下文词语来训练。

CBOW 与 skip-gram_第4张图片

参考资料:https://www.cnblogs.com/oceanicstar/p/10070862.html

最终优化:https://www.jianshu.com/p/8e291e4ba0da

你可能感兴趣的:(NLP)