吴军《信息论》中大数据思维应用之语音识别

印象最深是吴军老师告诉我们飞机的发明不是仿生鸟类翅膀的工作原理,是了解透了空气动力学,加以运用,才实现了人们飞上蓝天的梦想。我们总说要有梦想,除了做梦,还得有思想,把梦拆解成可解决的问题的思考与想法。

这些,也是我作为文科生会迷上吴军博士的课程的原因。生活中,我们总要解决各式各样的问题,我们如何拆解问题,把问题变成

关于大数据思维在当下最常见,也是最成功的四类应用。
第一类是解决人工智能问题,把那些过去看似需要人脑推理的问题,变成今天基于大数据的计算问题。
第二类是利用大数据,进行精准的服务。
第三类是动态调整我们做事情的策略。
第四类是发现原来不知道的规律。
先说说第一类,解决人工智能问题。世界上利用大数据解决的第一个智能型的问题是语音识别,接下来是机器翻译。语音识别的历史正好和电子计算机一样长,可以追溯到1946年。但是一直做得非常不成功。
到了60年代末,计算机已经进入到第三代了(基于集成电路的),语音识别才只能做到识别十个数字加上几十个单词,而且错误率高达30%。这样水平的系统是不可用的,因为如果每十个词就错三个,你就无法复原原来的意思了。
因此,在60年代初,就有人认为语音识别和治愈癌症、登月、水变油一样,近乎不可能。到了70年代,康奈尔大学著名的信息论专家贾里尼克来到IBM,负责该公司的语音识别项目。贾里尼克是一位天才,他从博士毕业到成为讲席教授,教科书的作者,也就是十年时间。
在贾里尼克之前,人们觉得识别语音是一个智力活动,比如我们听到一串语音信号,脑子会把它们先变成音节,然后组成字和词,再联系上下文理解它们的意思,最后排除同音字的歧义性,得到它的意思。
为了做这件事,科学家们就试图让计算机学会构词法,能够分析语法,理解语义。但这件事证明是不可行的。贾里尼克在到IBM之前并没有做过语音识别,他也不懂得传统的人工智能。
事实上,直到死他都不认为他是人工智能专家。由于不受到传统的人工智能思想的约束,他得以用信息论的思维方式来看待语音识别问题。他认为语音识别是一个通信问题。
贾里尼克是这样考虑问题的。当说话人讲话时,他是用语言和文字将他的想法编码,这就变成了一个信息论的问题。语言和文字无论是通过空气传播,还是电话线传播,都是一个信息传播问题,在通信中有一套对应的信道编码理论。在听话人,也就是接收方那里,他再做解码的工作,把空气中的声波变回到语言文字,再通过对语言文字的解码,得到含义。
于是,贾里尼克就用通信的编解码模型,以及有噪音的信道传输模型,构建了语音识别的模型。但是这些模型里面有很多参数需要计算出来,这就要用到大量的数据,于是,贾里尼克就把上述问题又变成了数据处理的问题了。
在这样的思想指导下,贾里尼克裁掉了IBM全部的语言学家,并且对各种仿生学,比如研究人耳蜗的模型完全不感兴趣,他只注重收集数据,训练各种统计模型。
那么这样能否解决语音识别问题呢?在一开始,学术界确实有人怀疑,不过贾里尼克很快用结果回答了大家。
在短短几年时间里,他的团队(都是数学家和数学很好的理论物理学家)就将语音识别的规模扩大到22000词,错误率降低到10%左右。这是一个质的飞跃,从此数据驱动的方法在人工智能领域站住了脚。
贾里尼克思想的本质,是利用数据(信息)消除不确定性,这就是香农信息论的本质,也是大数据思维的科学基础。这就是第一类应用,把人工智能问题变成数据问题带给我们的启示。

这种转换让我想起了哲学家塞尔构造了一个精巧的思想实验,同时也是图灵测试的一个变形,叫作中文屋子(Chinese room)。

具体如下:

想象一间屋子,里面有一个人,就是塞尔自己,一沓纸,一支笔,一个中英文对照表。

人从门缝里塞进纸条,上面是用中文提的问题。塞尔用对照表查出与其对应的英文问题,给出英文答案,再用对照表查出对应的中文,抄写在纸条上塞回门缝。

回答完美无缺,屋内外通过纸条的整个对话应答过程尽管完美,但不存在理解这回事——塞尔自己完全不懂中文。

中文屋子里没有理解力,只有单纯的计算。

这个实验是哲学家思考机器到底有没有强人工智能的实验,而贾里尼克完美实现了语音的识别功能。

你可能感兴趣的:(吴军《信息论》中大数据思维应用之语音识别)