word2vec 随笔

word2vec

在语言中,词是自然语言基本单位,而计算机只认识数字,他并不认识单词,所以我们需要找到一种合适表达方式将词汇信息传递给计算机。词向量是表示词的向量,也称为词的特征向量。

word2vec(词向量)

词向量(word2vec)这个概念是 google 公司 Tomas Milkolos 领导的小组提出的。在 NPL 领域,有许多词汇、短语、句子层面语义信息的开发工具或是技术。

这是一篇随笔,随后会给出详细的内容补充...

词嵌入(word embedding)

词嵌入:在自然语言处理中,语言模型和特征工程中把词汇表中单词或是短语映射成实数的向量。
我们之前都是用 one-hot 对词汇进行编码。例如这里有几个,"元宵节","春节","苹果","香蕉","红烧肉",这些词汇如果用 one-hot 进行编码。

语义分布

在 1954 年,Harris 提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。Firth 在1957 年对分布假说进行了进一步阐述和明确:词的语义由其上下文决定(a word is characterized by thecompany it keeps)这些 word2Vec 理论基础,也就是我们为什么通过上下文相似度可以推测词相似度。

word2vec 模型的组成部分

word2vec 输入

通常输入为大量语料库或文档。

word2vec 输出

得到一个表示词意义同时还能表达分布相似度的向量

模型

跳字模型(Skip-Gram)

在跳字模型中,用一个词预测文本序列周围词,当我们输入 love 模型根据预测出 I 和 machine learning 这些词。给定 I 根据窗口(window)大小来推测其周围词生成概率。love 作为输入我们通常叫做中心词(也有叫目标词)距离中心词不超过 window 大小词(如 I 和 machine)都是背景词。

词袋模型(Skip-Gram)

word2vec 模型的结构

词汇表构建器

上下文环境构建器

你可能感兴趣的:(word2vec 随笔)