浅谈《数学之美》①——自然语言处理

小编看的书吴军博士的《数学之美》第二版,最近看完了前七章,做个小总结吧,毕竟本书的知识还是很值得去细细品味(虽然很多看不懂。。。。),算是读书笔记吧,但是本书个人认为不是很适合不知道基础知识的读者去读例如:概率论、计算机基础知识,毕竟本书很多地方都是用他们进行推导和计算的。下面小编就简单说(xia)说(bian)自然语言出理这一块吧。本文按照章节来,主要简介一下章节内的一些基本的知识点(权当做笔记),如果您是打算了解一下自然语言处理方面的一些关键词,或者该方向的一些技术或者其起源的话,希望本文对你会有所帮助,小编写本文旨在如果日后小编想简单的回顾一下《数学之美》的内容的话,可以有一个简单的文章让小编顺一下内容。
第一章 文字和语言 VS 数字和信息

①古人的通信方式和当今我们的通信方式在原理上没有任何差别。原始人们通过怪叫声将信息发送到信道中(编码),听到的人们将听到的声音转换为自己能理解的语言(解码)。
浅谈《数学之美》①——自然语言处理_第1张图片
②古埃及人发明了最早得到保存信息的方式——用图形表示事物,即最早的象形文字。中国发现最早的甲骨文的时候,此前几千年尼罗河流域已经有了高度的文明。
③在古埃及的象形文字中,读音相同的词可能用同一个符号记录,这种概念的聚类,在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性。
④之所以能够达成翻译这件事,仅仅是因为不同的文字系统在记录信息的能力上是等价的
⑤罗塞塔石碑:一个中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字、埃及的拼音文字、古希腊文。我们可以发现,信息的冗余是信息安全的保障,该石碑上的内容是将统一信息重复三次,因为只要有一份内容完好的保留下来,原有的信息就不会丢失,这对信道编码有指导意义。知道了罗塞塔石碑的历史,我们就能理解为什么现在很多翻译软件和服务器都叫做“罗塞塔”,其中包括Google的机器翻译和世界上销量最大的PC机上的翻译软件。
⑥我们为什么使用十进制呢?很简单,我们有十个手指,所以十进制很方便,那么有没有文明使用二十进制呢?答案就是:玛雅文明,因此,玛雅人的一个世纪,他们称之为太阳纪,是四百年。因此2012年正好是目前这个太阳纪的最后一年。
⑦对于不同数字的表示,我们现在知道的就是罗马数字和中国数字来表示数字的不同量级,中国人用个十百千,罗马人用X表示十, L表示50, C表示100。这两种表示法都不自觉的引入了朴素的编码概念,首先,他们使用不同的符号代表了不同的数字概念,其次,他们分别制定了解码的规则。就解码来讲,中国的方式要比罗马的简单很多,中国的使用的是乘法,比如200是用2 * 100,罗马的数字 IX 的解码为10 - 1 = 9, IV表示的是5 - 1 = 4,由此我们可以看到如果要表示数量级很大的数字的话,罗马数字会比中国数字麻烦很多。
⑧阿拉伯数字的发明者并不是阿拉伯人,而是古印度人,而是由阿拉伯人传入欧洲之后,马上得到了普及,因此欧洲人就认为该数字是阿拉伯人发明的。他的革命性不仅在于他的简洁有效,而且意味着数字和文字的分离。客观上让自然语言的研究和数学在很多年里没有重合的轨迹。
⑨当人类第二个文明的中心在两河流域的美索不达米亚建立的时候,一种新型文字建立了——楔(xie)形文字。古希腊文字母的拼写和读音已经紧密的结合起来了,这种语言相对来讲容易学习,之后,随着马其顿人以及之后罗马人的扩张,这种只需要几十个字母的语言成为了欧亚非大陆语言体系的主体,因此我们把所有西方拼音文字成为罗马式的语言。
⑩在通信时,如果信道较宽,信息不必压缩就可以直接传递,如果信道较窄,信息在传递之前需要尽可能的压缩,然后再接收端进行解压缩。编码可以理解为从字母到词的构词法,解码规则可以理解为语法。
第二章 自然语言处理——从规则到统计

①图灵测试:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。
②达特茅斯夏季人工智能研讨会议:由麦肯锡、明斯基、罗切斯特和香浓等人在达特茅斯学院开了一个头脑风暴式的研讨会,人工智能这个提法就是在这次会议上提出的。参加这个会议的人后来都是IT领域最优秀的科学家。
AI和自然语言处理等全是靠的数学,更准确的说是靠统计
④上世纪70年代,基于规则的句法分析(包括文法分析或者语义分析)很快就走到了尽头,之后科学家们就开始采用基于统计的句法分析,其核心模型是通信系统加隐含马尔科夫模型。统计语言模型就成为了今天所有自然语言处理的基础。
⑤句法分析的问题很复杂,因为一个语法成分对于另一个语法成分的修饰关系不一定相邻,而是中间隔了很多短语,只有
基于有向图的统计模型
才能很好的解决复杂的句法分析。可以且只需运用数学的方法给出现在所有自然语言处理相关的问题的全部答案。
第三章 统计语言模型

(我们在这里就不再赘述对应的数学公式,学习过概率论的同学一定都知道这些公式,如果没有概率论基础的话,大家看这一块也是有些费劲的)
马尔科夫假设:假设任意一个词出现的概率直通他前面的词有关。
②事实证明:统计语言模型比任何一支的借助某种规定的解决方案都要有效。
③N - 1阶马尔科夫假设:假定文本中的每一个词和前面的N - 1个词有关,而与更前面的词无关,这样,当前词的概率只取决于前面N - 1个词。该假设对应的语言模型称为N元模型。实际上,应用最多的是N = 3的三元模型,跟高阶的模型就很少使用了。因为首先,N元模型的大小几乎是N的指数函数,使用N元模型的速度(或者说时间复杂度)也几乎是一个指数函数,当N从 1 到 2 ,再从 2 到 3 ,模型的效果上升显著,但是当从 3 到 4 的时候效果的提升就不是很显著了而资源的耗费却增加的很快。,马尔科夫假设的局限性就体现在这里。
④使用语言模型需要知道模型中所有的条件概率,我们称之为模型的参数通过对语料的统计得到这些参数的过程成为模型的训练
⑤在数理统计中,我们对采样数据进行观察的结果来预测概率,因为有大数定理的支撑,他要求有足够的观察值
Zipf定律:出现一次的词的数量比出现两次的词的数量多,出现两次的比出现三次的数量多。
⑦在实际的自然语言处理中,一般对出现次数超过某个阈值的词,频率不下调,只对频率出现次数低于这个阈值的词,频率才下调,下调得到的频率总和给未出现的词。于是,对于频率超过一定阈值的词,他们的概率估计就是他们在语料库中的相对频度,对于频率小于这个阈值的词,他们的概率估计就小于他们的相对频度,出现次数越少,折扣越多。对于未看见的词,也给予了宇哥比较小的概率吗,这样所有词的概率估计都很平滑了。
第四章 谈谈分词

①首先要对句子进行分词,才能做进一步的自然语言处理。在工业界,只要采用基本的统计语言模型,加上一些业界熟知的技巧就可以得到很好的分词结果。
第五章 隐含马尔科夫模型

①通信的本质就是一个编解码和传输的过程。
浅谈《数学之美》①——自然语言处理_第2张图片
②隐含马尔科夫模型:并不是俄罗斯数学家马尔科夫发明的,而是美国数学家鲍姆等人在一篇发表的论文中提出的。
③马尔科夫假设:随机过程中各个状态的概率分布只与他的前一个状态有关,符合这个假设的随机过程称为马尔科夫过程也叫马尔科夫链。
④有监督的训练前提是需要大量的人工标注的数据。
⑤训练马尔科夫模型更实用的方式仅仅是通过大量观测的信号来推算模型的参数,这类方法称为无监督的训练学习方法。主要使用的是鲍姆-韦尔奇算法。
第六章 信息的度量和作用

(本章大部分内容在信息论或者通信原理中均可见,故不赘述)
①一个比特是一位二进制数,在计算机中,一个字节是 8 比特

第七章 贾利尼克和现代自然语言处理

本章主要介绍了一下贾里尼克的生活的一些概述,个人觉得没有什么技术方面的知识

你可能感兴趣的:(others)