自然语言处理中n-gram模型学习笔记

语言模型

       对于很多自然语言处理领域的问题,比如机器翻译,处理要确定预测结果中的字词集合以外,还有一个非常重要的方面就是要评估文本序列是否符合人类使用的习惯。也就是要判断文本是否通顺、自然、甚至在翻译问题上,“信”、“达”、“雅”是一种高级的要求。语言模型就是用于评估文本符合语言使用习惯程度的模型

       要让机器来评估文本是否符合人类的使用习惯,一种方式是通过语言学方面的研究,制定出人类语言的范式,比如:陈述句是由主谓宾构成的、定语修饰语需要加在名词前面等等。然而,所有人类语言的共同特点就是字词组合具有非常大的灵活性,同一语义可以有多种表达方式,甚至许多二义性的语言带来了幽默的成分,是喜剧的重要组成部分。这种灵活性对规则的制定带来了巨大的难题。

1.什么是n-gram模型

n-gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n 的字节片段序列。

每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。

该模型基于马尔科夫假设即:假设在一段文本中,第N个词的出现只与前面n-1个词相关,而与其他任何词都不相关。基于这样一种假设,可以评估文本中每一个词出现的概率,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的二元的Bi-Gram和三元的Tri-Gram.

2.n-gram模型用于评估语句是否合理

假定S表示一个有意义的句子,它由一串特定顺序排列的词( w 1, w 2,..., w m)组成,m表示句子的长度,即单词个数。计算S在整个语料库中出现的可能性P(s),或表示成P( w 1, w 2,..., w m),可根据链式法则分解为:


这个概率显然并不好算,我们可以利用马尔科夫链的假设,即当前词只与最多前n-1个有限的词相关,因此不必追溯到最开始的那个词,这样概率计算可以简化为:


当n=1时,一个一元模型(unigram model)即为:


当n=2时,一个二元模型(bigram model)即为:


当n=3时,一个三元模型(trigram model)即为:


对于每一个词出现的条件概率,可以通过在预料库中统计计数的方式得出。则n元模型:


式中,C(wi-(n-1),wi-(n-2),......,wi-1,wi)表示字符串wi-(n-1),wi-(n-2),......,wi-1,wi出现在语料库中的次数。

根据上述模型定义可以看出:

       当n越小时,模型只考虑领近词语之间的关系。尤其是对于n=1时的特殊情况,被称之为unigram,此时对于每一个词的概率评估实际上与文本的上下文无关,仅与当前词语在语料库中出现的概率有关,但人们不会以一个词一个词的方式交流,而是要以词组成句子和段落,所以要预测一个词是否出现,需要考虑上下文中的更多词,即增大n 的取值,以捕捉更多的有用信息。

     然而,另一方面,当n越大时,虽然模型会考虑更长距离的上下文之间的关联关系,但随着n的取值增大,语言模型的参数越多,将导致参数空间过大到无法估算。若词表集合为V,其中单词数量为|V|,则由这些词组成的N元组合的数目为|V|^n,也就是说,组合数目会随着n的增大呈指数级的增长。同时,对于一条用于训练的词序列长度为1语料数据,可以提供的n元词语组合的总数为(l-n+1)。

  根据Zipf定律,少量词语占据了大部分的出现频次,若去除掉重复出现的n元组合,语料数据能提供的信息将更少。相对于语言模型的参数估计需求来说,语料数据是非常稀疏的。除非有海量的各种类型的语料数据,负责大量的n元组合都不曾在训练语料中出现过,依据最大似然估计得到的概率将会是0,也就是说模型可能仅仅能计算廖廖几个句子。

针对上述出现的问题,许多学者提出了很多不同的平滑方案进行估计,比如加一平滑(Add One Smoothing)、Good-Turing平滑、Katz's back-off平滑,以及插值模型等。

在实际应用方面来看,最常用是二元、三元模型。

3.n-gram模型的一个常用应用

搜索引擎如谷歌或百度等,或者输入法的提示。当我们在搜索每一个或几个词时,搜索框通常会以下拉菜单的形式给出几个备选项:

自然语言处理中n-gram模型学习笔记_第1张图片
那么原理是什么呢?也就是输入:“自然”的时候,后面的“博物馆”、“拼读法”......这些备选词是怎么出来的,又是怎么排序的呢?
实际上是根据语言模型得出的,假如使用的是二元语言模型预测下一个单词:
排序过程就是:
P("博物馆|“自然”)>P("拼读法"|“自然”)>P("拼读法教学视频"|“自然”)>............>P("人"|“自然”),这些概率值的求法和上面提到的完全一样,数据的来源可以是用户搜索的log.




你可能感兴趣的:(自然语言处理)