词向量Word2vec的本质

词向量Word2vec的本质

1、NLP中的词语
在NLP中最细粒度的是词语,词语组成句子,句子再组成段落、文章。
2、词嵌入(词向量)
在数学中,我们学过映射的概念,即f(x)—>y,在一些数学模型如SVM分类器、神经网络只接收数值型输入,我们就需要把词语转换成数值形式,或者说嵌入到一个数学空间里,这种嵌入方式就叫词嵌入。
3、Word2vec模型
Word2vec就是词嵌入的一种方式。
4、语言模型
在NLP中,把f(x)—>y中的x看作是一个句子里的词语,y是这个词语的上下文词语,那么这里的f就是语言模型,也就是判断x和y放在一起是否符合人类语言。利用Word2vec寻找相似词,例如:对于一句话:她们夸周杰伦唱歌很好听。如果输入x是周杰伦,那么y可以是她们、夸、唱歌、很好听这些词;现有另一句话:她们夸我唱歌很好听。如果输入是x是我,那么这里的上下文y和上面一样。所以f(周杰伦)=f(我)= y,即我=周杰伦。
语言模型又分为Skip-gram模型(根据一个词语来预测上下文)和CBOW模型(根据上下文来预测词语)
Skip-gram的简单情形:Skip-gram的网络结构如图所示,x是one-hot encoder(用一个只含一个1、其他都是0的向量来唯一表示词语)形式的输入,y是在这v个词上输出的概率。
词向量Word2vec的本质_第1张图片
CBOW的简单情形:网络结构如图所示,这里是输入变成了多个单词,所以要对输入处理一下(一般是求均值),输出的cost function不变。
词向量Word2vec的本质_第2张图片

5、Word2vec的使用
在基于知识图谱的问答系统中,常用于命名实体识别模型构建,根据语料库,使用Word2vec的词向量训练方法构建字符级的语言模型。训练Word2vec模型,得到每个字的嵌入向量,即将每个字在上下文中的意义分布到向量的每个维度上。Word2vec模型如图所示.。
词向量Word2vec的本质_第3张图片

你可能感兴趣的:(词向量)