吴军《数学之美》梳理1

 

一、Part 1

0.导读

《数学之美》主要围绕四个方面展开讨论,what?即数学能做什么;why?数学为什么要这么做;how?数学怎么样做到这个事情的;还有最后升华解释了一下为什么说这样做是美的。

《数学之美》精彩表达了数学在IT领域的,特别是语音识别和搜索引擎方面的魅力。

万维网创始人伯纳斯·李谈到设计原理时曾说过:“简单性和模块化是软件工程的基石;分布式和容错性是互联网的生命。”

该书结合了数学发展的历史和实际的案例,系统讲述了与现代科技领域有关的重要的数学理论的起源、发展及其作用。

从数字和信息的由来,到搜索引擎对信息进行处理的背后的数学原理,再到与搜索相关的其他众多领域后面的奇妙数学应用。数学是源于生活的有趣的现象和延伸。

1.文字和语言vs数字和信息

罗塞塔石碑的破译给从事自然语言处理的学者带来两点启示:1、信息的冗余是信息安全的保障。2、我们将语言的数据称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,他们是从事机器翻译研究的基础。

如果说从字母到词的构词法是词的编码规则,那么语法则是语言的编码和解码规则。两者相比较,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有完备的编解码规则,而后者则不具备这个特性。

在语言学研究方法上存在一个曾引发持续三四十年争论的问题,到底是语言对还是语法对。前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。而最终自然语言处理的成就宣布了前者的获胜。

我们祖先在解决设计语言遇到的问题时所遵循的法则与我们现今探求的研究方法背后有着共同的规律,即数学规律。

本章涉及到一些概念和主题,也是后面章节的重点,分别包括:1通信的原理,和信息传播的模型2(信源)编码和最短编码3解码的规则,语法4聚类5检验类6双语对照文本,语料库和机器翻译7多义性和利用上下文消除歧义性

2.自然语言处理——从规则到统计

图灵曾发表过一篇名为“计算的机器和智能”的论文,文中提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明机器有智能了。该方法被后人称为图灵测试。

计算机在机器翻译和语音识别两方面的应用靠的是数学,更准确地说是靠统计学。这两个应用并不是靠计算机理解了自然语言完成的。

受传统语言学研究的影响,20世纪60年代的科学家认为理解自然语言要从分析语句和获取语义两方面出发。由于语法规则很容易用计算机的算法描述,坚定了当时科学家对基于规则的自然语言处理的信心。相较前者而言,对于语义的研究和分析要不系统的多,因为语义比语法更难在计算机中表达出来。

到了20世纪70年代,基于规则的句法分析很快就走到了尽头,而对于语义的处理也遇到了大麻烦。明斯基曾在1966年举过一个简单的反例点明自然语言处理研究方法上存在的问题,他的意见使得美国政府在自然语言处理方面的研究资助大大减少。

1970年以后统计语言学的出现使其重获新生,贾里尼克及其领导的IBM华生实验室是推动技术路线转变的关键人物。最初他们也没想到能解决整个自然语言处理的各种问题,而只是希望解决语音识别的问题。采用基于统计的方法,IBM的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词。此后又用了十几年的时间,自然语言处理从基于规则到基于统计的过渡就完成了。

上个世纪70年代,基于统计的方法的核心模型是通信系统加隐含马尔可夫模型。这个系统的输入和输出都是一维的符号序列,而且保持原有的次序。最早获得成功的语音识别是如此的,接下来第二个获得成功的词性分析也是如此。但此方法对于句法分析和机器翻译不太管用。

1988年,IBM的布朗等人提出了基于统计的机器翻译方法,框架是对的,但效果很差,因为当时既没有足够的统计数据,也没有足够强大的模型来解决不同语言序列语序颠倒的问题。而句法分析的问题更加复杂,只有出现了基于有向图的统计模型才能很好地解决复杂的句法分析。

到了上个世纪90年代末期,大家发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。2005年后,Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统,基于规则方法固守的最后一个堡垒被拔掉了。

在过去的三十年里,自然语言处理的应用也发生了巨大改变,对自动问答的需求很大程度上被网页搜索和数据挖掘替代了。而新的应用越来越依靠数据的作用和浅层的自然语言处理的工作,这也在客观上大大加速了自然语言处理研究从基于规则的方法到基于统计的方法的转变。而自然语言处理的研究也从单纯的句法分析和语义理解,变成了非常贴近应用的机器翻译、语音识别、文本到数据库自动生成、数据挖掘和知识的获取等。

3.统计语言模型

未完待续...

你可能感兴趣的:(笔记,数学之美,机器学习,人工智能,编程语言,大数据)