统计自然语言处理简介

 

统计自然语言处理简介

                                                                                                                        李亚超    2010-10-28

简介

       语言学家的任务是描述和解释存在我们周围的众多语言现象,比如交谈、写作、以及其他的媒体形式。这就需要一方面确定人类是怎么认知世界、以及怎样获取、产生、理解语言,另一方面要理解语言的结构。对于后者的理解,人们做了很久的工作,构建出一系列的复杂的句法、语言规则,试图来概括所有语言结构,但事实证明,这个设想存在很大的局限性,重要的是能否完全概括所有的语法现象和准确度问题。 几十年过去了,基于规则的方法在自然语言处理上基毫无突破。   Edward Sapir 很早就发现的这个问题,后人总结了他的观点为一为句话“ All grammars leak”.在这里我不知道该怎么翻译,是直接翻译为“所有语法都有泄漏”,还是翻译为“不能概括所有的语法”,于是就直接把原话放在这里。

      我要介绍的是用统计的方法来解决上述问题,又称为统计自然语言理解。在这里,我们不用首先把句子分为合乎语法的和不合语法规则的。我们用到的模型是统计,因此这个方法的理论基础为概率论。这里,我不对概率论做过深的介绍,因为我们的工作重点不在这里。我们的工作是建立语言的概率模型,利用这些模型来解决自然语言问题。


理性主义和经验主义

       一些语言学者和许多自然语言处理工作者的兴趣重点在文字上,没有考虑到语言的心里表征和和语言的书面形式之间的关系。一些人可能会寻找以往的经验是怎么在人脑里建立模型的。这一章简要介绍这个问题中包含的哲学问题。

      

      在1960年到1985年之间,大多数的语言学家、人工智能专家、自然语言处理学者信奉理性注意,他们认为人类大脑里知识的重要组成部分不是由后天获得的,而是由先天遗传的。经验主义者认为,小孩可以通过不断的学习,或者语言的详细结构、语言的模式。这种方法在1920年至1960年占统治地位,不过今年来才重新流行起来。

       以上的观点太难懂,下面用比较通俗的例子来比喻。举例来说,两个人,一个从来没上过学,另一个受过良好的教育,当人了前提是两个人的智力都是正常人。在交流中,他们都能和别人进行日常交流和相互进行交流。她们之间,受过良好教育的,获得了良好的语法、句法知识,因而可以于人进行交流。而,从没有上过学的人,同样可以与人交流。他没有接受过专业的语法、句法学习,但是通过日常于不断学习,根据经验可以判断那些话是对的,那些是话说这是错的。这样的例子不太准确,但是可以从一个方面说明了理性主义和经验主义的差别。


NLP的科学内涵

      

     语言研究工作者要关注什么问题?这是个很重要的问题。在这里我们首先回答两个问题。

      1 人们说的话究竟是什么东西

      2 对于现实世界,这些东西是怎么说的/问的

      看到这个问题,人们会很快想到以下问题,人们是怎样获得知识的,人们是怎样时实的获取和产生语言句子。对于,以上的两个问题,第一个包含了语言中的所有结构,第二个集中于语义、段落、话语是怎么与现实世界表现联系的。在统计自然语言处理中主要集中于第一个问题“究竟人么说的是什么东西”

        传统的语言学家把人们日常说的话分为合乎语法的和不合乎语法的,这种方法由很多局限性,比如判断一个句子的标准是是否“结构良好”。Chomsky给出一个例子来说明局限性“Colorless green

ideas sleep furiously ”。这句话合乎语法,但是不合人们的逻辑。

语言的非范畴现象。除了以上句子语法判断的困难外,如果深入的研究一下,就可以看到语言范畴假设的失败之处。这说明了语言范畴观点对于很多工作来说是足够的,但是我们必须把他看成一个近似值,就像牛顿定理用在很多地方,但是有他的局限性。


语言与认知的概率现象

      认为概率作为理解语言的科学依据者认为人类的认知就是一种概率。而语言作为认知的重要组成部分,也必须是概率的。在我们日常生活中,大多数的语句不全部是合乎语法,也不是全部不合乎语法的。在大多数的时间,词的使用仅仅是作为言论的一部分,没有混合。如果语言和认知从整体上解释为概率是较好的,那么概率论将是解释语言的理论依据。

对于认知的概率现象的支持者认为,我们生活的世界充满了不确定和不完整的信息。为了与这个世界进行交流,我们必须能够处理这些信息的不确定性。接收到各个词,形成这些词的中心意思,然后根据这些信息进行判断。所以这些观点的要点在于对于语言的认知处理和其他形式的感觉输入和其他的知识。这些认知处理可以很好的归结为概率处理,重要的是能够处理不确定和不完整信息。以上很好的支持了人类认知是一种概率的观点。

对于有些人怀疑统计自然语言理解是否能够处理语义问题。对于这个问题的回答的难点在于怎么定义“语义”。在一些语言的实际应用中,把语义定义为符号表达(symbolic expressions )。就像把英语用在SQL语句中。对于自然语言处理语义就是: 文章所包含单词和各种表达的分布情况。相似的观点为一个词的意思由它所在的语境决定。


为什么自然语言处理很难

      

      在当前的大多数自然语言处理系统中,语义分析要在句法分析之后。这就意味着,随着句子的长度增加和语法的复杂性,句法分析的歧义会越来越严重。 歧义处理自然语言处理要面对的首要问题。


统计自然语言处理要做什么

简单的统计

对于统计自然语言要做的工作主要包括以下

常用词统计 。在英语中,常用的词由长度比较短的词,比如限定词、介词、补充词(complementizers),这些词通常包含重要的语法功能,称为 功能词(function words) 。统计时,需要的信息位,词,频率,所用的词性。


       文章的总词数 。对于这个问题可以解释为两种方式,一种是问文本的长度,即文本包含多少个词。另一个是,文本包含多少个不同的词,即包含了多少个不同的词类型。需要的信息为,词频,词频的频率(词类型出现的频率)。词频分布极不平均。少数词类型占据了大部分的词频。

以上是简单的词统计,下面介绍些比较高级的统计方法。


Zipf 定理

Zipf在他的一本书中提到了,一个普遍规则”最小省力原则“,并认为这适用于整个人类。最小省力原则认为人们会尽量的采取行动,来减少其工作量。(people will act so as to minimize their probable average rate of work)。以下将要介绍他的几个实验语言规律。

Zipf定理。如果把一个规模足够大的语料库(英文)中的各个词出现的频率进行排序,我们会发现一个现象一个词的频率f和其在句子中出现的位置之间r的关系,称为Rank r。


       Zipf定理:f=1/r , 也就是说r和f的乘积是个常数k,k=f*r。打个比喻来说,如果出现频率为50的词,在句子中出现的词数是出现频率为150的次的位置次数的三倍,这是个平均值。这种句子中词的频率和位置关系称为Zipf定理。


       Zipf定理是对人类语言文字出现频率的粗略描述。对于我们来说有用的是,我们观测数据中的大多数词的用法很少,用法很多的词并不多。为了更为精确的描述秩r和频率f的关系,提出以下公式。


1.1     数学公式   或者是两边取对数  

其中P,B, ρ 是文本的参数,这个公式用来衡量文本用词丰富程度。对于具体的语言模型,要测量P,B, ρ的具体参数。


其他经验性理论


词频率  词含义数量关系 Zipf 认为一个词的意思数量和这个词出现的频率有关。提出了以下公式,一个词的意思数量 m 遵守以下公式:         即: 

Zipf通过实验证明了他的结论,秩频率 r  10000 的词平均有 2.1 个意思, 5000 的平均有 3 个, 2000 的平均有 4.6 个。

另一个现象是 实词的集中出现趋势 。对于一个词,人们可以计算出,在文章中出现的每个词之间的行数或页数。然后,可以计算出不同的区间间隔(I) 出现的频率 (F) 。据 Zipf统计,对于间隔 的数量和间隔的距离成 反比。   , ρ 大约为1  – 1.3 


词语搭配

词语搭配为各个词之间组成一个完整的意义单位,比如New York 。这对于汉语来说就是中文分词。主要是统计各个词的搭配频率。

对于词语搭配统计可以用在 中文分词 上。比如一个句子可以分为三种方法,A1,A2,A3,A4; B1,B2,B3; C1,C2,C3; 怎样确定那个那种分词方法好。如果一个好的分词方法,分出的句子的概率应该是最大的,因此可以求出分词句子的概率,可以利用统计语言模型分别计算出每个句子的概率,那么概率最大的就是最好的分词结果。


词语 模式搭配

除了要统计词语出现的频率,有个重要的数据是词语模式搭配频率。比如统计一个词在语法特定语法用途下出现的频率,比如在一个语料库中,New York   AN 结构出现11487 次, Los   Angeles  NN结构出现 5412 次。

还有是统计第一词相同,第二个词不同的词语搭配的频率,比如 showed off , showed the  等。 收集这些动词形态的搭配频率,可以用在统计分析器上。统计自然语言处理很大一部分的工作是通过处理大量的数据,包括,索引行( concordance lines )、候选搭配方案 (lists of candidates for collocations) 

 

 

http://blog.csdn.net/harry_lyc/article/details/5972316

你可能感兴趣的:(统计自然语言处理简介)