cs224u word2vec词向量模型

cs224u word2vec 词向量模型

word2vec词向量模型从一个单词w预测与w共同出现的单词。这种直觉可以通过多种方式实现。在这里,我们回顾一下skip-gram模型,这是由Mikolov等人提出的,论文链接为 https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf。Skip-gram模型是一种有效的学习高质量分布式向量表示的方法,它可以捕捉大量精确的句法和语义词汇关系。论文提出了一些改进措施,使Skip-gram模型更具表现力,并能更快地学习高质量向量。通过对高频词进行采样,可以获得显著的加速,并且还可以学习由任务衡量的更高质量的表示。论文引入了负采样(Negative Sampling),这是噪声对比估计(NCE)的一种简化变体,它比softmax能更准确地学习高频词的向量。词汇表征的一个固有局限性是对词序的无视和无法表达习语。例如,不能很容易地将“加拿大”和“航空”的含义结合起来获得“加拿大航空”。在这个例子的启发下,论文提出了一种简单有效的短语查找方法,并证明了Skip-gram模型可以准确地学习短语的向量表示。 

训练数据

最自然的出发点是通过将每个词映射到给定窗口中出现的词的子集(可能是全部),将一个语料库转换为一个有监督的数据集。 

例如一个语料库:

it was the best of times, it was the worst of times, ...

当窗口大小为2时,将语料库转换为监督数据集:

(it, was)
(it, the)
(was, it)
(was, t

你可能感兴趣的:(cs224u word2vec词向量模型)