理解词嵌入WordEmbedding

1. 引入

词嵌入,英文为 Word Embedding,这是语言表示的一种方式。它可以让算法理解一些类似的词。

2. 词表示:one-hot

我们可以用one-hot向量来表示词,如下图所示。

理解词嵌入WordEmbedding_第1张图片

这种表示方式,我们需要首先获取一个字典,比如字典中有100000个词。

对每一个词,都得到一个向量,其中该词对应位置上置一,其他位置置零。

比如man这个词位于字典的第5391个位置,则我们为这个单词创建一个100000维度的向量,其中第5391个位置处值为1,其他位置值为0.

这种方法的缺点,是它把每个词孤立了起来。这样会使算法对相关词的泛化能力不强。

比如,如下两句话中,都需要在末尾填入一个单词。

  1. I want a glass of orange ____

  2. I want a glass of apple ____

这里都应该填入juice。但是,即使你的算法已经学到了第一个句子,但它并不知道orange和apple比较类似,所以第一个句子的经验难以被学到。用one-hot向量来表示,问题在于,orange和apple之间的内积为0,所以算法很难从orange juice中学到apple后面也应该跟着juice。

3. 词表示:Word Embedding

上例中,用one-hot向量表示orange和apple,会使得orange和apple之间的内积为0,所以用one-hot无法表示两个相似的词。用Word Embedding表示法,就能使相似词之间的向量也相似。

我们用下面这个例子来方便大家理解Word Embedding。

理解词嵌入WordEmbedding_第2张图片

这是一个理想化的Word Embedding表示,表格中每一列的数据表示某一个单词的Word Embedding向量。可以看到,Queen和King的向量值很接近,说明这两个词有相关性。

在这种表示中,我们要知道:

  1. 第一列表示特征,比如Gender,Royal,Age等,这里有300个特征;

  2. 后面每一列表示一个单词的word embedding;

  3. 其中值为1表示单词与特征非常接近,比如King与Royal的相似性值为0.93;值为0表示相关性很低。

  4. Apple 的Word Embedding向量 为 [0,-0.01,0.03,0.95, …], Orange 的Word Embedding向量 为[0.01,0.00,-0.02,0.97, …],可以看到他们的向量都非常相似。

这种表示方法的优点,是对于2中提到的两句话例子,算法训练时知道orange后面需要填写juice,则很大概率上apple后面也是相同的词。

用Word Embedding来表示词,会让算法的泛化能力更好。虽然真正的Word Embedding表示,无法做到本例中能知道各个向量值具体表示什么特征,我们通过这个例子,也只是说明Word Embedding这种高维的表示,比on-hot要好。

4. 参考

  • Andrew NG,序列模型

你可能感兴趣的:(NLP,神经网络,Machine,Learning)