Datawhale组队学习之NLP组第二天 Glove

Datawhale组队学习之NLP组第二天 Glove

  • Skip-grams 与 CBOW
      • CBOW:
      • Skip-gram
  • Glove
  • 参考文献与说明:

今天是Datawhale组队学习的第二天,本博客主要介绍三个方面的内容,分别是 Skip-grams(SG) , Continuous Bag of Words (CBOW) , Glove。
当然,在斯坦福CS224N 的此次课程中,教授还提到了很多别的知识,如梯度下降,学习率alpha,奇异值分解(SVD),这些内容因为教授也是一带而过,且较为容易,所以此处就不作总结了。

Skip-grams 与 CBOW

先来看一张两个模型的对比图。
Datawhale组队学习之NLP组第二天 Glove_第1张图片
从图像中我们可以发现,通俗来讲,CBOW是通过输入上下文的单词来预测中心词,而SG是通过输入中心词来预测上下文的单词。

接着我们看一张神经网络的结构图。
左边为CBOW,右边为Skip-gram
在这里插入图片描述
下面对上述两个模型做一下简要的介绍。

CBOW:

1、目标函数:
Datawhale组队学习之NLP组第二天 Glove_第2张图片2、特点:
无隐层。使用双向上下文窗口。上下文词序无关。输入层直接使用低维稠密向量表示。投影层简化为求和(平均)。

3、网络结构图:
Datawhale组队学习之NLP组第二天 Glove_第3张图片4、在上图中,该模型的输入输出与skip-gram模型的输入输出是相反的。这里输入层是由one-hot编码的输入上下文{x1,…,xC}组成,其中窗口大小为C,词汇表大小为V。隐藏层是N维的向量。最后输出层是也被one-hot编码的输出单词y。被one-hot编码的输入向量通过一个V×N维的权重矩阵W连接到隐藏层;隐藏层通过一个N×V的权重矩阵W′连接到输出层。

5、一些推导过程如下:
Datawhale组队学习之NLP组第二天 Glove_第4张图片

Skip-gram

有一种理解就是,Skip-gram 是 CBOW 的一个镜像,先来看一张图看看是不是能大概理解了。
Datawhale组队学习之NLP组第二天 Glove_第5张图片大概过程可以描述为,先用一个权重矩阵W1(中心词权重矩阵)把one-hot编码转换为词向量的模式。(这也是word2vec里面推崇的形式),紧接着,用该词向量与另一个权重矩阵W2(背景词权重矩阵)作内积,得到每个词的计算概率,然后用softmax得到每个词的概率。最后,由truth(此时为监督学习)计算误差并用于反向传播。

视频中还介绍了一种“基于负采样方法的skip-gram”模型,原因是
Datawhale组队学习之NLP组第二天 Glove_第6张图片对该式分母的计算代价太大。

算法思路:
使用一个 true pair (中心词及其上下文窗口中的词)与几个 noise pair (中心词与随机词搭配) 形成的样本,训练二元逻辑回归。

k是我们负采样的样本数目。讲义中的图片如下:
Datawhale组队学习之NLP组第二天 Glove_第7张图片Datawhale组队学习之NLP组第二天 Glove_第8张图片

Glove

1、算法的基本思想:
比较SVD这种count based模型与Word2Vec这种direct prediction模型,它们各有优缺点:Count based模型优点是训练快速,并且有效的利用了统计信息,缺点是对于高频词汇较为偏向,并且仅能概括词组的相关性,而且有的时候产生的word vector对于解释词的含义如word analogy等任务效果不好;Direct Prediction优点是可以概括比相关性更为复杂的信息,进行word analogy等任务时效果较好,缺点是对统计信息利用的不够充分。所以Manning教授他们想采取一种方法可以结合两者的优势,并将这种算法命名为GloVe(Global Vectors的缩写),表示他们可以有效的利用全局的统计信息。
2、损失函数形式:
Datawhale组队学习之NLP组第二天 Glove_第9张图片
Datawhale组队学习之NLP组第二天 Glove_第10张图片经过试验所得的较好的权重函数的图像即为上图所话的函数图像。

值得说明的是,在原论文中,Glove的性能比其他NLP模型效果都好很多,但是,后续有论文证明,效果好的原因很可能是该Glove模型很精细,参数都很准确,而相对应的word2vec模型很粗糙。在另一些情况下比较两个模型,发现word2vec模型的效果不亚于Glove,且word2vec的应用频率远远高于Glove。

参考文献与说明:

1、https://savap-my.sharepoint.com/personal/x5ku2mj_onedrive_press/_layouts/15/Doc.aspx?sourcedoc={9b094b39-7f40-4f1a-8060-5e97d94e5aad}&action=view&wd=target%28Word2Vec.one%7Cf9fbd0a5-5ae7-4e62-a3f2-70193cc220ad%2FCBOWSkip-grm%7C43a4247e-eb23-471a-9b4f-2ca2a024a89c%2F%29

2、https://zhuanlan.zhihu.com/p/60208480

3、https://blog.csdn.net/u010665216/article/details/78724856?utm_medium=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

如若侵权,请联系删除。

你可能感兴趣的:(NLP,CBOM,深度学习)