循环神经网络-独热编码+词向量Word Embedding

独热编码 :

一百个词一百维向量 一万个词一万维   ->高维
循环神经网络-独热编码+词向量Word Embedding_第1张图片

对于上图的解释,假设有一个包含 8 个次的字典 VV,“time” 位于字典的第 1 个位置,“banana” 位于字典的第 8 个位置,因此,采用独热表示方法,对于 “time” 的向量来说,除了第 1 个位置为 1,其余位置为 0;对于 “banana” 的向量来说,除了第 8 个位置为 1,其余位置为 0。

缺点:1)高维的

2)稀疏

3)硬编码    对于独热表示的向量,如果采用余弦相似度计算向量间的相似度,可以明显的发现任意两者向量的相似度结果都为 0,即任意二者都不相关,也就是说独热表示无法解决词之间的相似性问题。

Word Embedding词向量的引入

优点:1)低维的

2)稠密

3)从data中学习

循环神经网络-独热编码+词向量Word Embedding_第2张图片

左侧是独热向量 结果是词向量  中间矩阵Q是不断学习的出来的,明显看出这是一个降维(5D->3D)的过程,

上图所示有一个 5*3的矩阵 Q,这个矩阵 Q 包含 5 行,

 Q 的内容也是网络参数,需要学习获得,训练刚开始用随机值初始化矩阵 Q,当这个网络训练好之后,矩阵 Q 的内容被正确赋值,每一行代表一个单词对应的 Word embedding 值。


 

你可能感兴趣的:(rnn,机器学习,算法)