词汇表征
利用one-hot向量来表示词,会使得词语词之间孤立,对相关词的泛化能力差,如下图所示
当你学习到了一个语言模型:I want a glass of orange,在进行第二个句子的学习的时候,并不能识别苹果与橙子之间的关系。因为使用one-hot向量进行词的表示时,apple 与orange之间的内积为0。因为我们用另一种方法,学习这些词的特征。如,我们可以给出一个特征gender,那么他们在这个特征上的得分如下,男人在这一特征上得分为-1,女人的得分为1.
可以构造很多特征,假设我们构造了300个特征,那么每个词可以用新构造的300维向量来代替原来的one-hot向量,这样一来,每个词都被嵌入到300维空间内的一个点上,这种方法就称为嵌入。新的向量可以比较不同词之间的相似性,如苹果和橙子在很多特征上具有相似性,那么学习了一个句子I want a glass of orange juice,模型可能会自动识别另一个句子I want a glass of apple juice. 在构造了一个新的向量以后,我们可以将这个300维的向量嵌入到一个二维的空间里,这样就可以进行可视化了,常用的方法是T-SNE方法。
词嵌入的使用
以命名实体为例,如果你已经得到第一个句子,那么根据词嵌入,知道了不同词之间特征的关系,那么你很容易知道,orange farmer 和apple farmer表示的含义相同,即使是较为复杂的词Durian cultivator,只要有了词嵌入,学习算法也能识别正确。词嵌入能实现这一点的原因是其考察了非常大的文本集,1亿甚至100亿也是合理的。通过大量的无标签的文本集,你会发现orange 与apple相似,farmer与cultivator相似。同时,即使你的训练集很小,你也可以从大量的文本中进行词嵌入的学习或者直接从网上下载预训练的词嵌入,然后通过迁移学习进行训练:
首先得到词嵌入,然后迁移学习,用得到的词嵌入表示你的训练集中(假设训练集较小),此时,可以用词嵌入代替one-hot向量,那么10000的one-hot向量可以用300维的词嵌入向量表示。第三步,可以使用新的数据对词嵌入进行微调(适用于数据量较大的时候)。进行这种词嵌入的迁移学习在任务的训练样本较少的时候最有效。
词嵌入的特性——类比推理
如果man对应woman,那么king对应什么呢?
通过词嵌入的向量计算,我们可以知道,man与woman,King与queen之间的区别都是性别。测量词与词之间的相似性,最常用的度量方法就是余弦相似性,我们已知Man和woman还有king,要找到queen.假设我们要找到的向量是,可以表示为,那么,就可以通过余弦相似性得到。
只要通过大量的文本库进行词嵌入的学习,就可以得到很多词之间的相似性。
词嵌入矩阵
当利用算法学习词嵌入的时候,实际上是学习一个嵌入矩阵。
假设我们的字典中有10000个词,包括位置次等,那么我们就得到了一个嵌入矩阵,其维度是300*10000的矩阵我们用E表示这个嵌入矩阵。对于第6257个词,当我们用one-hot向量表示的时候,会得到一个10000维的向量,其第6257个元素为1,其他元素为0.当我们用嵌入矩阵乘以这个one-hot向量的时候,就可以得到一个300*1的向量,即=embedding for word j。值的注意的是,这个等式在计算的时候非常复杂,因为one-hot向量维度很高,且大部分元素为零,在实践中,会通过特定的算法取出E中的某一列,而不是直接进行矩阵向量相乘。
学习词嵌入
如上例所示,目标词是juice。如果想学习语言模型,那么应该选取目标器前后多个单词(此处是4个)作为context,然后输入到一个神经网络中,进行目标词的预测,如果是想学习词嵌入,那么可以选取其他形式的context,如选取前一个单词,或者距离目标词较近的某个单词。
Word2Vec
给定一个context,要找到目标词的词嵌入,首先得到context词的one-hot向量,然后与词嵌入矩阵相乘,可以的到其嵌入向量,再通过神经网络中的softmax分类,得到预测的目标词的one-hot向量。在实际计算中,softmax在进行分类的时候,要计算,当词汇量较多的时候,这种方法的计算效率较低。分级的softmax分类器可以解决这个问题,该分类器在进行学习之前,先对词汇表进行分类,如对于一个10000的词汇表,hierarchical softmas分类器先告诉你目标词位于词汇表的前5000个词还是后5000个词,确定为前5000以后,再进一步分析其属于前2500还是后2500。如此就可以进行类似于树状的分类。从而提高计算效率。通常,分级softmax分类词不会是一个平衡分类的树。
那么,如果进行context词的选择呢?我们可以在词汇表中均匀随机的采样,选择环境词,然后进行目标词的预测,但是,这种均匀随机的采样很可能会得到在词汇表中出现较多的the ,of,a,and之类的词,这样会需要反复更新,从而增大计算量。因此,一般不会采用均匀随机采样。
负采样
给定一对词orange,juice,如何知道他们是不是context-Word?首先生成一对正样本context-Word,生成方法和上一小节相同,首先选定一个context词,然后在一定词距内,如正负十个词的词距内,选一个目标词,然后就生成了orange juice,标记为1。为了生成一个负样本,采用相同的上下文词orange,然后再从词典中随机选择一个词,示例中选择的词是king,生成 orange King并标记为0,同样的,形成k个负样例,如orange book等,若我们选取的词出现在orange上下词距内也没有关系,如这里的orange of。
学习算法输入x,即一个词对,对输出y进行预测。问题变为,给定一个词对,你觉得他们会同时出现吗,你觉得这两个词是通过对靠近的两个词采样获得的吗,他们是在原来的文本中获得的还是在字典中随机选择得到的,算法就是要区分这两种不同的采样方式。这就是如果获得训练集的方法。那么k如何选择呢,如果是小数据集的haul,k从5~20 比较好,对于更大的数据集,k属于2~5比较好。下面来分析一下从x到y的监督学习模型。定义一个logistic回归模型,计算再给定输入对c,t的情况下,y=1的概率
在进行采样之后,采用logistic分类,建立一个由1000个二分类构成的神经网络,将环境词orange构造成嵌入向量之后,通过神经网络,会生成1000个logistic回归,但是在训练的时候,我们只训练我们的样本,即1个正样本加k个负样本,这样就比更新1000维的softmax分类器的成本低。在每次迭代的时候,选择一个正样本和四个负样本进行训练。
负样本的选择:可以根据经验概率,即词语在字典中出现的频率进行选择,但这样会很容易选到the,of,a之类的词;另一种极端就是等概率的从字典中选择。经研究,通过图中的概率选择效果较好。