人工智能篇——计算机处理自然语言的一些问题

首先我们需要了解信息是如何传播的。事实上,即使现在的通信方式比之原始社会先进得多,而从传播原理上讲,却是并没有差别的,即

将信息源所要传播的信息进行编码,接收者从信息通道获得编码后的信息并将其解码,从而获得信息源所要传播的信息。

信息经过了编码——传播——解码,实现了信息的传播。

我们可以认为,任何一种语言都是一种对信息的一种编码的方式,而语言的语法规则便是编解码的算法。当我们将一个所要表达的信息通过一种语言表达出来之时,便已经进行了一次编码,而编码的结果便是这种语言表达的一串文字。信息接收者如果懂得这种语言,那么他便可以将这串文字解码,从而获得这串文字所代表的信息。这便是人类语言的本质。

我们要研究智能问题,那么首先要面对的,就是计算机能否处理自然语言。计算机科学之父阿兰•图灵(Alan Turing)在他的一篇论文中提出了一种验证机器是否有智能的方法,这种方法也被称为图灵测试(Turing Test):

让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能。

当然,计算机能否处理自然语言,无论是真实情况还是出于假设,这个答案必然是能,这是研究下去的前提。

接下来,便是计算机如何处理自然语言。对于这个问题,人们的第一反应便是,计算机像人类一样处理自然语言,换句话说,便是让计算机理解自然语言,再深入一层,便是计算机拥有如人类大脑一般的智能。那么这种想法是否可行?

从二十世纪五十年代到七十年代,研究智能的科学家都抱着这种想法,然而二十年的成果几近为零。如何理解自然语言,在于分析语句和获取语义。

分析语句,如“我看书。”以文法规则重写出来,便是


句子→主谓宾句号

主语→名词  谓语→动词  宾语→名词  句号→。

名词→我   动词→看  名词→书


我们可以看到,即使是如此简单的一句话,也需要八条文法规则,那么如果是一个更为复杂的句子,如“一向自信的他一直认为他自己做的一切都是无可辩驳的。”其中的文法规则便复杂得多了。

那么这其中便出现了一个无法解决的问题,想要通过文法规则覆盖所有自然语言的语法规则,数量至少达到十万以上,而且为了语义准确,还必须说明每个规则规定的使用环境,到最后每增加一个新句子,就要加入一些新的文法规则。

即便假设上面的问题能够解决,在获取语义上也出现了另一个无法解决的问题。那就是无论在哪一种自然语言里,要理解一个句子的意思,往往要联系上下文,这个问题直接导致了自然语言处理研究的停滞。

所以,让计算机理解自然语言至少目前是不可行的。学者们也就将该想法称为“鸟飞派”,即以为模仿鸟便能造出飞机,而不需要知道空气动力学。

那么计算机是如何处理自然语言的呢?

答案是使用基于统计的方法,即为自然语言上下相关得特性建立数学模型。一开始因为计算能力不足和数据量少的问题,基于统计的方法智能处理简单的自然语言,但近几十年来,计算机的硬件更新和数据量的不断增加,让通过统计模型完成精确复杂的句法分析变得越加可行。

你可能感兴趣的:(人工智能篇——计算机处理自然语言的一些问题)