Word representation:词嵌入(word embedding),是语言表示的一种方式,可以让算法自动理解一些类似的词比如男人、女人,国王、王后等。通过词嵌入的概念,即使你的模型标记的训练集相对较小,也可以构建NLP(自然语言处理)应用。词表示(word representation)的一个缺点是它把每个词孤立起来,如下图,这样使得算法对相关词的泛化能力不强,任何两个one-hot向量的内积都是0。
如果我们不用one-hot表示而是用特征化表示(featurized representation)来表示每个词,如下图,比如可以用gender, royal, age, food, size, cost等有300个不同的特征,这样对于不同的单词算法会泛化的更好。这种高维特征的表示能够比one-hot更好的表示不同的单词。
我们最终学习的特征或者300维的词嵌入通常可以把这300维的数据嵌入到一个二维空间里可视化,如下图。常用的可视化算法是t-SNE算法。词嵌入算法对于相近的概念学到的特征也比较类似。在对这些概念可视化的时候这些概念就比较相似,最终把它们映射为相似的特征向量。
Using word embeddings:如下图,命名实体识别例子(named entity recognition example),用词嵌入作为输入训练好的模型,比如要找出人名,假如有个句子,Sally Johnson是一个种橙子的农民,如果有一个新的输入,Robert Lin是一个种苹果的农民,因为橙子和苹果很相近,那么算法很容易知道Robert Lin也是一个人的名字。如果有一个新的输入Robert Lin是一个榴莲培育家,假如你标记的很小的训练集可能没有榴莲或培育家两个词。但是如果你有一个已经学好的词嵌入,它会告诉你榴莲是水果就像橙子一样,并且培育家跟农民差不多,那么你就有可能从你的训练集里种橙子的农民归纳出榴莲培育家也是一个人。词嵌入能够达到这种效果其中一个原因就是学习词嵌入的算法会考察非常大的文本集,可以是一亿个单词甚至达到100亿也是合理的。通过读取大量的互联网文本,接下来你可以把这个词嵌入应用到命名实体识别任务中,尽管你只有一个很小的训练集,可以使用迁移学习把你从互联网上免费获得的大量的无标签文本中学习到的知识能够分辨橙子、苹果、榴莲都是水果的知识,然后把这些知识迁移到一个任务中。
用词嵌入做迁移学习的步骤:如下图,第一步,先从大量的文本集中学习词嵌入或者可以下载网上预训练好的词嵌入模型。然后你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中,比如说用300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量。最后,当你在你的新的任务上训练模型时,在你的命名实体识别任务上只有少量的标记数据集上你可以自己选择用新的数据要不要微调。当你的任务的训练集相对较小时,词嵌入的作用最明显,所以它广泛用于NLP领域。比如它已经用在命名实体识别、文本摘要、文本解析等。词嵌入在语言模型、机器翻译领域用的少一些,这些任务你有大量的数据。
词嵌入的特性:词嵌入还有一个特性它能帮助实现类比推理。类比推理可能不是自然语言处理应用中最重要的存在,不过它能帮助人们理解词嵌入作了什么以及词嵌入能够干什么。如下图,假设用4维的嵌入向量,假如man对于woman,是否可以推论出king对应什么?从eman-ewoman和eking-equeen中根据向量的表示,它们都是gender上的差异,所以得出这种类比推理的结论的方法。eman-ewoman≈eking-e?,可以得出是Queen。
如何将类比推理用算法实现:如下图,比如词嵌入向量在一个300维的空间里,于是man代表的就是空间中的一个点,另外一个单词woman代表空间另一个点,等等。向量man和woman的差非常接近于向量king和queen之间的差值,在gender这一维的差。通过方程找到一个使得相似度最大的单词,如果结果理想的话,会找到单词queen。最常用的相似度函数叫做余弦相似度。也可以用平方距离或者欧式距离来表示。词嵌入的一个显著成果就是可学习的类比关系的一般性。
嵌入矩阵:当你应用算法来学习词嵌入时实际上是学习一个嵌入矩阵(embedding matrix)。如下图,假设我们的字典含有10000个单词,我们要做的就是学习一个嵌入矩阵E,它将是一个300*10000的矩阵,这个矩阵的各列代表的是字典中10000个不同的单词所代表的不同向量。E乘以one-hot向量会得到嵌入向量。
学习词嵌入:建立一个语言模型是学习词嵌入的好方法,如下图,如何建立神经网络来预测序列中的下一个单词。建立一个one-hot向量表示这个词,然后生成一个参数矩阵E,然后用E乘以o得到嵌入向量e4343,这一步意味着e4343是由矩阵E乘以one-hot向量得到的。然后对其它的词也做相同的操作。现在你有许多300维的嵌入向量。我们能做的是把它们全部放进神经网络中,即输入一些上下文然后预测出目标词。如果用一个固定的历史窗口就意味着你可以处理任意长度的句子。
Word2Vec:它是一个简单而且计算时更加高效的方式来学习这种类型的词嵌入。Word2Vec的skip-gram模型即用softmax作为分类,如下图,它把一个像orange这样的词作为输入并预测这个输入词从左数或者从右数的某个词,预测上下文词的前面一些或者后面一些是什么词,实际上使用这个算法会遇到一些问题,首要的问题就是计算速度。这里有一些解决方案,比如使用一个分级的softmax分类器。
负采样:skip-gram模型可以构造一个监督学习任务,把上下文映射到目标词上。但它的缺点就在于softmax计算起来很慢。这里介绍一个改善过的学习问题叫做负采样(negative smapling),它可以做到与skip-gram模型相似的事情,但是有了一个更加有效的学习算法。如下图,在这个算法中要做的是构造一个新的监督学习问题,问题就是给定一对单词,比如orange, juice,我们要去预测这是否是一对上下文词----目标词。orange和juice是一对正样本,orange和king是一对负样本。生成这些数据的方式是选择一个上下文词再选一个目标词,作为正样本;然后给定几次用相同的上下文再从字典中选取随机的词,作为负样本(negative example)。接下来构造一个监督学习问题,其中学习算法输入x,要去预测目标的标签即预测输出y,因此问题就是给定一对词,像orange和juice, 这个算法就是要分辨两种不同的采样方式。这就是如何生成训练集的方法。关于k的选取,小数据集的话,k从5到20比较好,如果数据集很大,k就选的小一点,对于更大的数据集,k就选择2到5。数据集越小,k就越大。在这个例子中用的是k等于4。
从x映射到y的监督学习模型,如下图,定义一个logistic回归模型,给定输入c,t对的条件下,y=1的概率。如果输入词是orange,你要做的就是输入one-hot向量再传递给E,通过两者相乘,获得嵌入向量e6257,你就得到了10000个可能的logistic回归分类问题,其中一个将会是用来判断目标词是否是juice的分类器,还有其它的词。但并不是每次迭代都训练全部1000个,我们只训练其中的5个,我们要训练对应真正目标词的那一个分类器,再训练4个随机选取的负样本,这就是k=4的情况。所以不使用巨大的10000维度的softmax,因为计算成本很高,而是把它转变为10000个二分类问题,每个都很容易计算。每次迭代我们要做的只是训练它们其中的5个,一般而言,就是k+1个,其中k个负样本和1个正样本,这也就是为什么这个算法计算成本更低的原因。这个技巧叫做负采样。
GloVe word vectors:GloVe算法不如Word2Vec或skip-gram模型用的多。如下图,GloVe表示的是用词表示的全局向量。GloVe所要做的就是使其关系开始明确化,假定Xij是单词i在单词j上下文中出现的次数,这里的i和j就和t和c的功能一样,可以认为Xij等同于Xtc,你也可以遍历你的训练集然后数出单词i和单词j在不同的上下文中出现的个数。Xij就是单词i和单词j出现位置相近时或是彼此接近的频率的计数器。
Sentiment classification(情绪分类):情绪分类任务就是看一段文本然后分辨这个人是否喜欢他们在讨论的这个东西。情绪分类的一个最大挑战就是可能标记的训练集没有那么多,但是有了词嵌入,即使只有中等大小的标记的训练集,你也能构建一个不错的情绪分类器。如下图,输入x是一段文本,而输出y是你要预测的相应情绪,比如说是一个餐馆评价的星级。基于这样标记的数据集,如果你能训练一个从x到y的映射,那么你就可以用来搜集大家对你运营的餐馆的评价。
Debiasing(去除偏差) word embeddings:词嵌入中一些有关减少或是消除偏见的办法,如种族、性取向方面的偏见,如下图,根据训练模型所使用的文本,词嵌入能够反映出性别、种族、年龄、性取向等其它方面的偏见,这些偏见都和社会经济状态相关。词嵌入能够轻易学会用来训练模型的文本中的偏见内容,所以算法获取到的偏见内容就可以反映出人们写作中的偏见。以性别为例,首先我们要做的事就是辨别出我们想要减少或想要消除的特定偏见的趋势(direction),接着是中和步(neutralization step),最后一步是均衡步(equalization step)。
GitHub: https://github.com/fengbingchun/NN_Test