《数学之美》读书笔记02-0101

第二章自然语言处理(从规则到统计)

1.任何一种语言都是一种编码的方式,而语言的语法规则是编解码的算法。

 我如今想写一篇文章,这个想法在我的脑海中萌生,我通过汉字来表达出我的想法,是对我头脑中的信息做出的编码。--这时编码就是一串文字。
 如今你有缘看到我的这篇文章,眼睛看到了我编辑的汉字,你的头脑对其进行分析,得到了我想写一篇文章的想法,这是解码。
 这一个传递的过程是语言的数学本质。

2.第一,计算机能否处理自然语言;第二,如果能,那么它处理自然语言的方法是否和人类一样?

这两个问题值得后续仔细思考和琢磨。

3.自然语言处理60多年的发展过程,基本上可以分为两个阶段。

20世纪50年代到70年代,是一个弯路的阶段,因为是局限在人类学习语言的方法上,即用电脑模拟人脑。插个局外话:在看这本书之前,其实我一直以为是处理是根据人类的思考方式来思考的,果然人还是要多读书~~
从70年代开始,自然语言处理进入第二个阶段--基于数学模型和统计的方法。

4.(弯路阶段)当时,学术界对人工智能和自认语言理解的普遍认为:要让机器完成翻译或者语音识别等只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机拥有类似我们人类的智能。
在20世纪60年代,当时的普遍认识是首先做好两件事,即分析语句和获取语义。

这是现在科学界已经不再坚持的想法,但是还是我这种门外汉对于人工智能还是具有这样的认识,谨记。
其实在我本身的学习过程中,一直都认为要想真的掌握知识,就需要深刻的了解它的知识架构。就像是刚学习英语的时候,第一学期学的最多的时候就是英语的语法。像词性,主谓宾等……但是我英语的语法学的很糟糕,后续学英语都是靠的背单词以及语感。这算避过弯路吗??

5.20世纪60年代,基于计算机高级程序语言都可概括成上下文无关的文法,科学家设计了一些非常简单的自然语句的文法分析器。

句子的文法分析确实是很繁琐,它把语句分析成一棵二维的文法分析树就说明了会带来一种复杂度,并不是最优的,而且文法规则完全靠人来总结输入真的是太不合理了,而且人的表达方式会随着社会的习俗而不断变化的。
除却语法规则的限制,自然语言有着语义和上下文相关的特性,所以语言处理一味仿照高级语言的特性,复杂度必然要相差很多。

6.基于规则的自然语言处理和基于统计的自然语言处理的争执后来还持续了15年左右。

这里面吴军博士指出了一点,对于学者来说15年坚持的研究方向结果渐渐被证明是不可行的。带入我是那个学者,本人已经开始极度抑郁了,并且还想跟另外学派的人大战一场。
而对于争议持续15年,他指出了两个原因,一个是新的研究方法的成熟需要很多年,另一个是需要等原有一批的语言家退休。
这两点确实是把现实的情况指出来了,不止是科学界,就是日常的职场都有这个现象,变革派总是会受到各种各样的阻挠。在一个人一直坚持一个理念,并拒绝了解其他理论,直接就将其标记为奇技淫巧,大概就已经渐渐变得糊涂和固执。
唉,经费又给那些“老科学家”拿走了~

明日更新第三章,fighting~

你可能感兴趣的:(人工智能,自然语言处理)