读论文《Distributed Representations of Words and Phrases and their Compositionality》

读论文《Distributed Representations of Words and Phrases and their Compositionality》


introduce

这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。

本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。

method

Skip-gram的目标是最大化下面的概率分布

其中, c是训练上下文的大小。比如c是2,就预测上文2个词和下文2个词。
p(wt+j|wt) 是表示wt条件下出现 wt+j 的概率。
如果采用正常的softmax, p(wt+j|wt) 这么算:

其中W是词表的大小,而一般大语料的词表都是非常大的,所以对全部输出使用softmax的训练难度很大,所以Skip-gram采用了用哈夫曼树结构构建的Hierarchical Softmax,最终的概率密度函数如下:

本文中还介绍了Negative Sampling的方法,它以一个正样本和几个随机采取的负样本作为优化目标

其中文章对高频词进行二次抽样的函数如下

作者以构造的得分函数评价连续的词是否为短语的可能性,当大于阖值时就作为短语。最后以短语中各单词的词嵌入之和作为该短语的词嵌入(文中没找到,但表格5中是用加的)

my view

1.负采样是否适用于其他模型
2.怎么表示短语的词嵌入,各单词之和?那句子,语段呢?

本文地址:http://blog.csdn.net/qq_31456593/article/details/77515156

你可能感兴趣的:(深度学习,论文)