word2vec

n-gram:主要工作是在语料中统计各种词串出现的次数以及平滑化处理,计算一个句子的概率时,只需要找到相关的概率参数,将它们连乘起来就好。

神经网络概率语言模型优点:

  • 词语之间的相似性可以用词向量体现
  • 词向量自带平滑功能

四个名词:

  • CBOW模型:从上下文预测关键词
  • skip-gram:从关键词预测上下文
  • hierarchical softmax:树
  • negative sampling:正负样本

hierarchical softmax:建立一个哈弗曼树,优化目标是:让词向量沿路径到达它所在的叶节点的可能性最大,具体方法是用梯度下降法改进非叶结点的参数。
CBOW的hierarchical softmax模型:求窗口中的向量和,沿路对每一个节点进行优化,最后优化词向量
skip-gram的hierarchical softmax模型:用选中的词向量,对窗口中的其他词的路径中的节点做优化
以上两种方法的区别仅在于:一个是求得和向量,只对本词路径做优化。另一个是用本身词向量对其他若干节点做优化。

negative sampling的训练目标:最大化g(w)


word2vec_第1张图片

CBOW:用和向量对窗口中的每个词进行训练


word2vec_第2张图片

skip-gram:把窗口中的每一个词都看作中心词进行训练,优化每一个词向量


word2vec_第3张图片

你可能感兴趣的:(word2vec)