数学之美 第2章 自然语言处理-从规则到统计

数学之美 第2章  自然语言处理-从规则到统计

首先我们抛出2个问题:

1. 计算机是否能处理自然语言

2. 如果能,那么它处理自然语言的方法是否和人类一样

--------------------------------------------------------------------------------

1. 机器智能

图灵测试:让一个人和机器进行交流,如果人无法判断自己交流的对象是人还是计算机时,就说明这个机器有智能了。 当然这只是一种验证机器是否智能的方法假设。

自然语言的处理主要分为两派或者是两个阶段:

(1)规则:理解自然语言(即分析语句和获取语义)

因为当时的学术界对人工智能和自然语言界的普遍认识是这样的:要让机器完成翻译或者语音识别就必须让计算机理解自然语言因为我们人类这么做啊,道理就是这么简单,比如,实现双语的翻译的时候,这个人必须精通这两门语言是吧。按照这个思路的话,就是我们要去分析句型,语法规则,语义啊这些死板的事情。

比如:徐志摩喜欢林徽因。
这个句子可以分为主语,动词短语,和句号三部分。在映射到语法分析树上

但是明显的缺点就是:
1,句子很长的话,语法树就会很大,很复杂
2,如果仅仅使用文法规则就想覆盖哪怕是20%真是的语句,文法规则的数量至少也要几万条,而且还要说明各个规则特定的使用环境,也就说你能考好  数据结构期末试卷,但是换成 考研的试卷你就考不好了,换成软件工程里的数据结构你照样考不好,也就是说呢,你永远也穷举不完的。
3,即使覆盖了所有自然语言现象,用计算机解析它那也是相当困难的事情。
4,用规则处理法在多义性很难处理,因为多义词严重依赖上下文语境


(2)统计(就是我们采用模型,因为有个事实就是已经存在的就是合理的。我们去统计这些合理的):

这个下面讲,这里告诉大家,统计学习方法是自然语言的基础,推荐书籍:统计学习方法 李航 著
以后的几个章节我们就讲解各种应用大概方法。

你可能感兴趣的:(数学之美----吴军,阅读推荐)