统计自然语言处理基础学习笔记(1)

        理性主义者使用一种理性主义方法,它由一种信仰决定的,人们相信人类大脑中重要的知识不是由感官得到的,而是提前固定在头脑中,由遗传基因决定。该思想的遵循了Chomsky(乔姆斯基)提出的关于语言本能的观点。对人工智能研究的影响:研究人员试图建立一个能够通过手工编码大量的先验知识和推理机制的智能系统,复制出人类大脑中的语言能力。

         经验主义者使用经验主义方法,同样假设大脑中存在某些认知的能力,该方法和理性主义方法的区别是程度上的区别,而非本质上的区别。该方法假设大脑中存在某些原始的结构,经验主义方法更倾向于相信人类达到中有一种结构,这种结构能够从感官中输入的信息中组织和产生语言,因此不经过学习生成某些语言是可能的。与理性主义方法不同,它认为人类的智能不是开始于细化的规则集,也不是开始于针对各种各样语言结构和其他感知领域的程序集。总之,经验主义者认为人的大脑在婴儿时期具有联想、模式识别和概括的一般能力,这些能力通过可以得到的丰富的感官输入,使孩子学习到自然语言的详细结构。

统计自然语言处理中不能观测到大规模的语言实例,因此借助于语法描述能够更加准确的研究语言。好的语法描述能为文本语料库提供一种简洁的表述。

从哲学的观点来看,理性主义者寻找人类头脑中的语言模型,这个语言模型的数据(文本),只提供了间接的证据,这个证据是可以被母语说话者下意识补充的;经验主义者感兴趣的是描述实际出现的E-语言。

         在介绍自然语言处理的目的之前,这里不得不提一下语言能力和语言性能之间的区别。语言能力反应了母语说话者脑海中假设存在的语言结构知识,语言性能则受到一系列事物的影响。语言研究是针对语言能力和语言性能两方面展开,即

        人们说的话是什么?——对应人的语言能力,涉及语言结构的所有方面。

       人们说/问/要求的事物相应于现实世界的目的是什么?——对应语言性能方面,即涉及了语义学、语用学和话语,即怎么样把人类说的话与现实世界连接起来。

       统计自然语言处理的目的主要针对语言研究的第一个问题:人们说的话是什么?

       传统的语言研究方法是寻求描述一个可以成为语言基础的“能力语法”。语法合理性的概念意味着我们只是单纯地判断一个句子是否是结构完好地,而不管句子是否是人们习惯地表达方式,或者句子是否有正确地语义。而语法合理性可以把句子区分为合乎语法不合乎语法的句子。这种研究方法是将语言决定化处理。

        而统计自然语言处理认为,语言和认知是随机现象。因此可以把概率作为理解语言的一种科学方法,人类的认知是随机的,语言也必须是随机的。由于我们生活的世界中充满了不确定的和不完整的信息,因此可以用概率的方法去认知世界。前面提到研究语言一般分为两位层次:1、低层次的语法处理;2、语言意思的处理。采用概率的方法来 处理语言需要确定文本的结构性问题,必须具有良好的消除歧义的功能,它要解决词义、词类别、句法结构和语义范畴的歧义问题。然而结果歧义最小最大化语法的作用范围这两个目标对于自然语言处理系统是矛盾的,因此把语法的作用范围扩大化会导致对于一般句子的不正确的句法分析结果数量增加,反之亦然。统计自然语言处理必须能够自动从语料库中学习词汇和结构偏向性信息,以此来探寻解决上述问题,而不再单独使用句法的类,进行句法分析。

        总之,统计自然语言处理引导产生了一种全新的方法,即

         1.可以在分析自然文本的大规模系统中成功消除歧义问题;

         2.统计自然语言处理模型的参数通常可以在文本语料库中自动估计出来,这能够减少人类在建立NLP系统时的工作量。

         统计自然语言处理要想发挥重要的作用必不可少的部分为词汇资源,即涉及到了语料库语言学的问题。统计自然语言处理对与经常出现的词,其概率能够比较准确的代表词的语义,而对于在 语料库中没有出现或者几乎不会出现的词,我们不能通过计算其概率来预测它的行为。而增大词汇库势必会增加学习的时间,同时还不一定能够解决问题。针对稀有的词汇,我们采用了Zipf法则——最小精力付出原理。最小精力付出原理(the Principle of Least Effort):人类将会尽可能最小化他们可能的平均工作率,即不仅仅要最小化我们马上要做的工作,而且要考虑短期内最小工作对未来工作带来的影响。最小精力付出原理的目的揭示语言中的某些概率分布。而Zipf法则:如果我们能够统计出一种语言中所有的此在一个大型语料库中出现的次数,并且按他们出现次数的大小顺序把这些词排列起来,会发现一个词出现的频率f和它的排列位置之间的关系,设它的排列位置为r。那么Zipf法则可以表示为:

            存在一个常数k,使得f * r= k

           Zipf法则可以认为是人类语言中词语概率分布的粗略描述。而在排列位置较低和较高时,实际的曲线偏离预测值教严重。为了更加接近词汇经验分布的结果,Mandelbrot得出了更加一般的排列和出现次数的关系:

            log f = log P - Blog(r  +p), 其中P、B和p是文本的参数,他们总体衡量了文本中词汇使用的广度。当B=1,p=0时,那么Mandelbrot公式就退化为Zipl法则。Zipl的理论强调了世界上许多现象的一致性,而Mandelbrot根据Zipl的理论强调了世界上许多现象的独有性。Mandelbrot强调了世界上许多现象不符合高斯分布,而是符合双曲分布


你可能感兴趣的:(统计自然语言处理基础学习笔记(1))