我们从讨论“什么是NLP”开始本章的内容
自然(人工)语言为什么如此特别?自然语言是一个专门用来表达语义的系统,并且它不是由任何形式的物质表现产生。正因为如此,人工语言与视觉或者其他任何机器学习任务非常不同。
大多数单词只是一个超语言实体的符号:单词是映射到一个表征(想法或事物)的记号。例如,“火箭”一词是指火箭的概念,并且进一步可以指定火箭的实例。有一些单词例外,当我们使用单词和字母代表信号时,想“Whooompaa”一样。除此之外,语言符号可以用多种方式进行编码:语音、手势、文章等。他们可以通过连续的信号传递给大脑,而大脑本身似乎以连续的方式对事物进行编码。(关于语言和语言学的哲学的很多工作已经做到了概念化人类语言,并且可以从语言引用和语义识别单词)。
NLP中有不同级别的任务,从语音处理到语义解释和演讲处理。总而言之,NLP的目标就是为了能够设计算法,是计算机能够理解自然语言。下面是不同难度级别的应用实例:
贯穿于整个自然语言处理任务中的第一个也是最重要的共同点就是:如何表示单词并作为我们所具有的任意模型的输入。前期大量的NLP工作将单词作为原子符号,但是我们今后将不会重复这个工作,我们首选需要考虑和具备词之间的相似性和差异概念。和词向量一样,我们可以很容易地将这些特征加入到向量之间(采用一些距离措施,如Jaccard,余弦,欧几里得算法等等)。
据估计大约有1300万的英文字符,难道它们之间一点联系也没有吗?猫科动物到猫,酒店到汽车旅馆?我不认为它们之间一点关系也没有。因此,我们想将每个单词字符转化为向量,以代表某种单词空间的一个点。这里有很多使用词向量的原因但是最直观的原因就是也许真正存一些足以包含人工语言所有语义的N-维向量空间。每个维度都会编码我们语言传递的含义。例如,语义维度可能表示时态(过去vs现在vs将来),计数(单数vs复数),性别(男性vs女性)。
所以让我们看看第一个词向量并且也可以说是最简单的,one-hot向量。将每个单词表示成IR|V|x1向量,这个词向量就是有很多0和一个1组成(1的位置就是该单词在排序英文出现的索引位置)。在上面的标记中,|V|是词汇的大小。以这种形式编码的词向量看起来如下:
对于这一类寻找词嵌入(也称作词向量)的方法,首先在一个大型数据集进行循环,并且从某种形式的矩阵X中积累单词共现的次数,然后对矩阵X执行奇异值分解来获得一个USVT.我们然后将U作为我们词典中所有单词的词嵌入(或词向量)。下面讨论下X的一些形式。
作为刚开始的尝试,我们大胆地推测:相关的单词经常出现在同一个文档中。例如,“银行”、“债券”、“股票”、“钱”等等,可能出现在一起。但是“银行”、“章鱼”、“香蕉”和“曲棍球”可能不会一起同时出现在一篇文章中。我们依据这个事实来创建一个词-文档矩阵X,其形成方式如下:遍历几十亿个文档,并且对于每一个单词i只要出现在文档j中,我们就将X自增1。很明显的是,X将会是一个巨大的矩阵(IR|V|xM)同时与文档数量(M)相关。因此我们或许还有改善的地方。
在这使用同样的逻辑,矩阵X存储了单词的共现次数,这样将会变成一个附属矩阵。在这个方法中,我们计算每个单词在一个特定大小的窗口内出现的次数,进而计算语料库中所有的单词的技术。下面将展示一个实例,我们语料中包含三个句子,窗口大小为1:
I like deep learning.
由此产生的计数矩阵将会是:
下面解释下结果:
首先要记住窗口(window)大小1。对于矩阵中(I,I)的值为什么为0呢?对于单词I,我们扫描第一个句子,因为I enjoy flying中单词I出现了,I前面为空,后面紧跟单词enjoy,所以(I,I)的值为0;然后扫描第二个句子同样前后没有出现I,这是(I,I)为0;同样扫描第三个句子之后,(I,I)值仍为0。对于(I,like)的值为什么为2呢?扫描第一个句子后,I的前后一个单位没有出现like。对于第2个和第3个句子,I的后面出现了like,所以最后(I,like)的值为2,其他同理。
我们在X上执行SVD,观察奇异值(结果矩阵S的对角线数据项),并根据所需要的百分比方差在索引k处进行切割:
让我们后退一步尝试新的方法,我们可以尝试创建一个模型,它可以在一段时间内学习一个迭代,并最终能够根据上下文对一个单词的概率进行编码,而不是计算和存储一些巨大的数据集(可能是几十亿个句子)。
这个想法就是设计一个模型,其参数为一个词向量(word vector)。然后,在一定的目标上训练模型。在每次迭代中,我们都运行模型,评估错误,并遵循一个规则,对引起模型错误的参数进行更新替换。因此我们最终学习了单词向量。这是一个可以追溯到1986年的古老思想,我们将其称作“后向传播”。模型和任务越简单,其训练学习的速度就越快。
一些方法已经被测试过。[Collobert et al.,2011]设计了将一些自然语言处理模型,这些模型的第一步就是将每个单词转换为向量。对于每个特殊的任务(命名实体识别、语义标注等),尽管可以计算出很好得单词向量,但是它们除了训练模型的参数同时也训练单词向量,最终显著地提高了模型性能。其他有趣的读物可以阅读[Bengio et al.,2003]。
与此相似,我们将讲述一种更加简单,更加先进,更加可行的方法:word2vec[Mikolov et al.,2003].Word2vec是一个软件包,其包含了以下内容:
首先,我们需要创建这样一个模型,它将为一个单词序列分配一个概率。以下面的足迹为例:
“The cat jumped over the puddle”
一个好的语言模型将会给这个句子一个很高的概率,因为它在语法和语义上是完全有效的。句子“stock boil fish is toy”出现的概率很低,因为它没有任何意义。在数学上,我们可以计算出包含n个单词的句子的概率:
我们采用一元语言模型(Unigrams)方法,然后假设句子中的单词出现相互独立,那么概率可以写为:
该方法就是将{“The”,“cat”,“over”,“the”,“puddle”}当做一个上下文(或语义背景),然后根据这些单词,预测并产生中心单词“jumped”,这种模型我们称作为CBOW模型。
补充:
CBOW Model:
从上下文预测中心词
对于每个单词我们需要学习2个向量:
-v: 作为周围单词时的词向量,也称为输入向量
-u:作为中心单词时的词向量,也成为输出向量
CBOW模型中的符号:
• wi: 词汇中的第i个单词
• V ∈Rnn×|V| : 输入词矩阵
• vi: 矩阵V中的第i列,代表单词wi的输入向量
• U∈ R|V|×n : 输出词矩阵
• ui: 矩阵U的第i行, 代表单词wi的输出向量
下面我们更加详细地讨论CBOW模型。首先,我们准备已知参数,使用one-hot向量表示参数。在CBOW中,我们将输入one-hot向量或者上下文记为x(c),输出记为y(c),因为只有一个输出,我们又将其称为y(一个中心词的one-hot向量)。现在我们定义模型中的未知参数。
我们创建两个矩阵,V∈IRn×|V|和U|V|×n.其中n可以使任意大小的,它定义了嵌入空间的大小。V是输入矩阵,当单词wi作为模型的输入时,V的第i列是wi的输入向量,记为vi。同样地,U是输出矩阵,当单词wj作为模型的输出时,U的第j行为单词wi的输出向量,记为uj。注意,我们实际上为每个单词wi学习两个向量(即输入词向量vi和输出词向量ui)。
我们将模型的原理分解下面几个步骤:
为大小为m的上下文生成一个one-hot 向量:
将上下文的输入词向量求平均值:
计算出一个评分向量:
作为两个相似向量的点积越高时,为了获得更高的分数,该公式会将相似的单词放在一块。
将评分转化为概率:
我们希望产生的概率y-hat能够匹配真实概率,这也恰好适用于one hot向量。
现在当我们拥有一个V和U时我们将会理解CBOW如何工作,将如何学习这两个矩阵?那么我们需要创建一个目标函数。 很多时候,当我们尝试从一些真实概率学习概率时,我们期望使用信息理论给出我们两个分布之间距离的度量。 在这里,我选择使用流行的距离/损耗方法来计算交叉熵H(y-hat,y)。
在离散情况下,可以通过损失函数来计算交叉熵得出:
除此之外,使用随机梯度(stochastic gradient)下降优化V和U:
这种方法就是通过给出的中心词“jumped”来创建一个模型,来预测和产生周围词汇(或者中心词的上下文)“The”,“cat”,"over,“the”,“puddle”。这里我们称之为“跳跃”的上下文,将这种类型的模型称为Skip-Gram模型。
下面将详细讨论Skip-Gram。与CBOW相比,初始化时大部分是相同的,只是我们需要将x和y,就是在CBOW中的x现在是y,反之亦然。我将输入one hot向量记为x,输出向量记为y(c),V、U和CBOW模型一样。
将评分向量转化为概率:
用随机梯度下降更新V和U,使预测更加接真实概率
就像在CBOW模型中,我们需要产生一个目标函数来评估模型效果。一个关键不同的地方是,我们需要调用贝叶斯理论来分离概率。在给出中心词条件下,所有的单词都是完全独立的。
有了这个目标函数,在每次迭代更新后,我们通过随机梯度下降就可以计算未知参数的梯度。
其实负采样和分级的softmax对Skip-Gram和CBOW两个优化策略。
我们回头看看目标函数,就会发现|V|的求和在计算上是巨大的。我们更新或者评估目标函数都需要花费O(|V|)百万级的时间。所以一种简单的方法就是近似实现目标函数。
对于每一个训练步骤,我们可以仅仅抽取几个负面例子,而不是遍历整个词汇表。从噪声分布(P(w))中“抽样”,其概率与词汇频率的排序一致,从而增加了我们对问题的描述。我们需要更新以下内容:
sigmoid函数的图像:
现在,我们建立一个新的目标函数,试图最大化语料库数据中的单词和上下文的概率,如果过词语和上下文刚好在语料库中,我们将词语和上下文在语料库数据中的概率最大化。如果过词语和上下文刚好不在语料库中,我们将词语和上下文不在语料库数据中的概率最大化。 下面是我们所采用这两个概率的简单最大似然法。 (这里我们将q作为模型的参数,在我们的例子中是V和U.)
注意,最大化似然性与最小化负对数似然性相同:
D′是“错误的”或者“负面的”语料库,像“stock boil fish is toy”这种不自然的句子出现的概率会很低,我们可以快速地随机地从词库中生成负语料D′。
在给定中心词c和上下文c-m+j,对于Skip-Gram得到的新目标函数:
对于CBOW模型,得到的新函数为:
之前的函数:
符号与标记:
那么概率计算公式为:
文章推荐