第1章 文字和语言 vs 数字和信息

以下内容学习、摘录自《数学之美》

第1章 文字和语言 vs 数字和信息_第1张图片

数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。但是,直到半个多世纪前香农博士提出信息论,人们才开始把数学和信息系统自觉地联系起来。在此之前,数学的发展主要跟人类对自然的认识以及生产活动联系在一起,包括天文学、几何和工程学、经济学、力学物理学甚至生物学等,而数学和语言学几乎是没有交集的。

随着文明的进步,埃及象形文字从最初数量大约只有500个,到数量5000个左右,与中国常用的汉字数量相当。然而到了数量级后,象形文字数量便不再增加了,因为没有人能够学会和记住这么多的文字。于是,概念的第一次概括和归类就开始了。在中国的象形文字中,“日”本意是太阳,但它同时又是太阳从升起到落山再到升起的时间周期,也就是我们讲的一天。这种概念的聚类,在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性,只是在远古,完成这个过程可能需要上千年;而今天,可能只需几天甚至几小时,视计算机的速度和数量而定。

文字按照意思来聚类,最终会带来一些歧义性,也就是说有时弄不清一个多义字在特定环境下它到底表示其中的哪个含义。而解决这个问题的方法,过去的先生和今天的学者也没有什么不同,都是依靠上下文。有了上下文大多数情况下多义字的去除歧义( Disambiguation)都可以做到。当然,总有个别做不到的时候,这就导致了学者们对某段话理解上的不同。中国古代学者对儒家经典的注释和正义,其实都是在按照自己的理解做消除歧义性的工作。今天的情况也类似,对上下文建立的概率模型再好,也有失灵的时候。这些是语言从产生伊始就固有的特点。

从公元前7世纪到了公元4世纪左右,埃及文化退出了历史的舞台,埃及的象形文字从此失传。后来,有人在一个叫罗塞塔( Rosetta)的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字、埃及的拼音文字和古希腊文。再后来,人们根据罗塞塔石碑破解了的古埃及象形文字。可见文字本身的载体是石头还是纸张并不重要,它所承载的信息才是最重要的

今天,我们对5000年前埃及的了解远比对1000年前的玛雅文明要多得多,这要归功于埃及人通过文字记录了他们生活中最重要的信息。而对于我这个长期从事自然语言处理的学者来讲,这件事有两点指导意义:1.信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要有一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义。2.语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。了解了罗塞塔石碑的历史,对于今天很多翻译软件和服务都叫作“罗塞塔”就不会觉得奇怪了。

既然文字是出现在远古“信息爆炸”导致人们的头脑装不下这些信息的时候,那么数字则是出现在人们的财产多到需要数一数才搞清楚有多少的时候。著名的美籍俄裔物理学家乔治·伽莫夫( George Gamow,1904-1968)在他的科普读物《从一到无穷大》一书中讲了这样一个原始部落中的故事。两个酋长要比一比谁说的数字大,一个酋长想了想,先说了“3”,第二个酋长想了半天,说你贏了。因为在原始部落,物质极其缺乏,很少会超过3,他们就称之为“许多”或者叫数不清。因此,在那个时代,不可能出现完整的计数系统。

对于不同位数数字的表示,中国人和罗马人都用明确的单位来表示数字的不同量级,中国人是用个十百千万亿兆;罗马人用字符1代表1,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,再往上就没有了。这两种表示法都不自觉地引入了朴素的编码的概念:首先,它们都是用不同的符号代表不同的数字概念;第二,它们分别制定了解码的规则。在中国,解码的规则是乘法;而在罗马,解码的规则是加减法。描述数字最有效的是古印度人,他们发明了包括0在内的10个阿拉伯数字(这个0很重要,否则就需要许多描述进制的量词,如个十百千万),就是今天全世界通用的数字。这种表示方法比中国和罗马的都抽象,但是使用方便。阿拉伯数字或者说印度数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重合的轨迹,而且越走越远。

象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉地采用了对信息的编码。不仅如此,我们的祖先对文字的编码还非常合理。在罗马体系的文字中,总体来讲,常用字短,生僻字长。而在意型文字中,也是类似,大都常用字笔画少,而生僻字笔画多。这完全符合信息论中的最短编码原理,虽然我们的祖先并不懂信息论。这种文字设计(其实是一种编码方法)带来的好处是书写起来省时间、省材料。在蔡伦发明纸张以前,书写文字不是一件容易的事情。就以中文为例,在东汉以前要将文字刻在其他物件比如龟壳、石碑和竹简上。由于刻个字的时间相当长,因此要惜墨如金。这就使得我们的古文(书面文字)非常简洁,但是也非常难懂,而同时期的口语却和今天的白话差别不大,语句较长但是易懂。(岭南客家话基本上保留了古代口语的原貌,写出来和我们清末民初的白话颇为相似。)

这种现象非常符合今天信息科学(和工程)的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩就可以直接传递;而如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩。在古代,两个人讲话说得快是一个宽信道,无需压缩;书写来得慢是一个窄信道,需要压缩。将日常的白话口语写成精简的文言文本身是信道压缩的过程,而将文言文解释清楚是解压缩的过程。这个现象与我们今天宽带互联网和移动互联网上的视频播放设定完全一致,前者是经过宽带传输,因此分辨率可以做得高得多;而后者由于空中频道带宽的限制,传输速度要慢一到两个数量级,因此分辨率要低得多。

语言从古语发展到现代语言,在表达含义上比以前更准确、更丰富,这里面语法起到了很大的作用。如果说从字母到词的构词法( Morp hology)是词的编码规则,那么语法则是语言的编码和解码规则。不过,相比较而言,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有完备的编解码规则,而后者则不具备这个特性。因此,任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩。虽然正统而教条的语言学家倾向于把这些例外作为“病句并且有的人毕其一生的精力来消灭病句,纯化语言,但是事实证明这种工作是徒劳的。莎士比亚的作品在他的时代完全是通俗而大众化的,其中包括大量违反古语法的名句,那个时代就开始有人试图完善(其实是篡改)莎士比亚戏剧。可今天这些语言不但没有消失,反而成了经典,而试图完善他著作的人却早已为大众遗忘。

这就涉及到一个语言学研究方法的问题:到底是语言对,还是语法对?前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。经过三四十年的争论,最后实践是检验真理的唯一标准,自然语言处理的成就最终宣布了前者的获胜

点击这里可以查看《数学之美》的其它学习笔记。

你可能感兴趣的:(第1章 文字和语言 vs 数字和信息)