台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding

台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding

本博客参考整理自:
http://blog.csdn.net/xzy_thu/article/details/70158829#t8
Word Embedding是降维的应用。
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第1张图片
1-of-N Encoding不能体现单词之间的关系(如不能体现cat,dog之间的关系),改进为word class之后,不能体现类之间的关系(如不能体现class 1与class 2之间的关系),所以映射到高维空间。
word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如,对于这样的“A B A C B F G”的一个序列,也许我们最后能得到:A对应的向量为[0.1 0.6 -0.5],B对应的向量为[-0.2 0.9 0.7] (此处的数值只用于示意)之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。
(作者:li Eta
链接:https://www.zhihu.com/question/32275069/answer/61059440
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。)
生成词向量是无监督的,training data是大量文本,机器通过上下文得到词向量。
利用上下文有两类方法:Count-based与Prediction-based

Count-based

台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第2张图片

Prediction-based

用前一个词预测后一个词:
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第3张图片
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第4张图片
用第一个hidden layer的input代表该词的word-embedding。
对“蔡英文”“马英九”要让它们在进入hidden layer之前(word-embedding)相近。

用前两个词预测后一个词:
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第5张图片
要共享参数,否则一个词会有两个词向量,共享参数还可以减少参数数量。
图中的梯度下降时参数更新公式可以保证对应参数一直相等。
Prediction-based的训练与其它结构
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第6张图片
台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第7张图片

Word Embedding的特点

台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第8张图片

Multi-domain Embedding

台大李宏毅Machine Learning 2017Fall学习笔记 (15)Unsupervised Learning:Word Embedding_第9张图片
image经过NN,得到一个vector(与word vector同维度)。
对training时没出现的类别也可以进行分类!

你可能感兴趣的:(台大李宏毅Machine,Learning,2017Fall)