用电脑加工中文
人类生活在信息的海洋之中,分分秒秒离不开信息。语言文字是人类社会特有的信息。信息处理方法的每一次重大革新,都促使人类社会进入更文明的阶段。在古代,烽火台的狼烟传递的是战争信息;纸和活字印刷术的发明,是信息表示和储存方法的革命;电报、电话、电视的发明,是信息加工和传输方法的革命;打字机、电传机、排铸机的发明,使语言文字的信息处理走上了机械化阶段;电子计算机作为强有力的信息处理工具的出现,使人类跨进了信息化的社会。
在我国,中文信息处理已经不是什么新鲜事物了。“中文”广义是指中国通用的语言文字,包括汉语汉字及其他少数民族文字;狭义地说,是指汉字。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取,并有一定交际功能的东西;所谓“处理”,是指用电脑对信息进行各种加工,主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。
中文信息处理研究,一般都形成各种各样的系统,如汉字信息处理系统、编辑排版系统、情报检索系统、程序教学系统、机器翻译系统、各类数据库和专家系统。此外,还有语音识别系统、汉语合成系统、各种通讯系统、人机对话系统等等。
以上系统有个共同的特点,即离不开电脑。这里讲的中文信息处理,不是一般人理解的电脑打字,而是通过电脑来处理和加工中文。中国是个具有五千年文明的伟大古国,三千年前就出现了甲骨文,在世界上处于先进行列。在新技术面前,中国的汉字不能直接进入电脑,因而受到了变革的冲击。1880年,丹麦人编制了汉字电报码本,用于电报传输汉字;1956年,我国科学工作者钱文浩提出了“码化理论”,他认为把汉字编为4位数字的电码,又把数字换成点和划的系统(汉字),这两个过程都是码化过程,汉字被码化后就可以作为信息来传输和处理了。从那时到现在,研究汉字信息处理的有识之士,克服种种困难,已经创造出近1000个汉字输入编码方案了,其中较优秀的有二三十个。
汉字不是为在电脑上使用而创制,电脑也不是为处理汉字而发明。对汉字逐个定出编码只是权宜之计,不是最终目的。研究中文信息处理的最终目的,打个比喻,就是要让电脑长成中国式的脑,长出中国式的耳目嘴手,成为具有高智能的中国机器人,实现情报工作、印刷排版、办公室的自动化等等,为促进现代化建设而作出贡献。
汉字如何进入计算机
被称为新技术革命象征的电脑,神通广大,似乎无所不能。但是,电脑只认两个符号,即0和1,0是空号,1是传号,而不是阿拉伯数字中的0和1。电脑采用的是二进位制,而不是十进位制。一般来说,电脑对于语言文字的信息处理,主要是对26个拉丁字母和10个阿拉伯数字以及一些标点符号的表达、识别、传输和复制。如ASCII码中的ABC、abc和123的代码如下:
A: 01000001(41H) B: 01000010(42H) C: 01000011(43H)
a: 01100001(61H) b: 01100010(62H) c: 01100011(63H)
1: 00110001(31H) 2: 00110010(32H) 3: 00110011(33H)
当我们输入A时,敲击键盘上的A键,当然,电脑不认识A,但可以认识A的代码,即:01000001,并对它进行传输处理后,在输出时,再还原为A就行了。在输入英文时,如输入Book,直接敲击这些字母键就行了,而机内接收到的是B、o、o、k的二进制代码,即:01000010、01101111、01101111、01101011。
汉字进入电脑的情况就不同。汉字的总数约6万个,组成这么多汉字的构成成份也有600多个,这样大的数量在电脑中用二进制代码是无法表达的。解决的方法是先把汉字编成用字母或数字表达的外码。如对“莉”字编码,用拼音方式,编码为LI,击L和I键后,发LI音的一串同音字会显示出来,再选择所要的字按序号击键输入就行。这样输速很慢,为了减少重码,加快输速,一般的方法是在LI之后加上分化同音字的定字字母,如将“莉”拆分为“艹”“利”各取其第一字母C、L,“莉”的编码为LICL,基本不会再有重码,可以直接输入了。还有一种方法是加声调代码4(四声)和部首代码U(艹),“莉”的编码为LI4U,这样编码,可读性更强。用字形编码方式,即先将“莉”拆分为字根(部首或更小的汉字构件):艹、禾、刂,“五笔字型”的代码为ATJ,这样可能重码,要引进末笔代码2,字型代码2,构成识别码J(22),所以“莉”的编码为ATJJ。因此,无论是音码形码,都要将汉字转换成字母(或数字)才能输入电脑。输出时,又将字母转换成汉字。这很像坐火车运客,旅客手拿人民币不能进入车厢,必须将人民币换成车票方能上车。到终点出站,旅客回单位报销,将车票又换成了人民币。
国标GB2312字符集一、二级汉字共6763个,是信息处理用字符集的基本集,目前,大多数机器就装有这么多汉字,这显然是不够的,在输入姓名、古文或日文时,有些字就打不出。扩充的GBK 字符集拥有20902个汉字,特殊的字库需要有6万个汉字,汉字数量大,编码输入的困难也大,因此,汉字编码输入的研究仍然需要继续深入进行。
汉字编码的早期
最早的汉字编码可以追溯到100年前。1880年中国创办中文电报局,丹麦人编定4位数字的电码,用以传输汉字。电报码用4个数字代替一个汉字,按字典所列汉字的顺序排列,与语音、笔画、构件都没有关系,是一种无理编码,只能死记硬背,效率较低。但是一个熟练的报务员,每分钟可传输130 个汉字。现在,仍有一些电脑上保留有电报码汉字输入法。
1926年,日本人发明了“万能式中文打字键盘”,在70×35的字盘上,收入2000多汉字和符号,用按键法输入。以后,东芝公司改为笔触式输入。大键盘的优点是直观性强,缺点是速度慢,设备笨重。还有一种主键——辅键式整字键盘,日本和美国都设计制造过,键盘收字约5000个,排列在168 个主键上,每键收30个汉字,另设30个辅助键,与分配给主键的30个汉字分别对应。熟练后,每小时可输2000字。以上方式都不用编码输入。
四角号码查字法于1928年出现,这种方案的同码字很多,在8877个汉字中,一组码代表二个以上汉字的比例达88%,1959年原苏联科学院研制“汉—俄”翻译机时,将原有的10种笔画增至15种,每个汉字用5位数,前4位表示汉字的四角笔画,末位数区分重码,无重字为0,有重码的字分别定为1、2、3等等。1963年,美国IBM 公司采用林语堂的“上下形检字法”,取汉字的左上角笔形和右下角笔形编码。1970年,江德曜对上述方案加以改进,确定34个“起笔”和22个“末笔”进行编码,重码字选择输入,这就是首尾码,学起来方便,但速度慢。
字形分解式的编码,一般用于中键盘。1961年杜定友发表“字根研究”,归纳出504 个字根,可组成全部通用字,用来编码。胡立人等提出“三角编号法”,取每字三个角的笔形(字根)编码,字根定为300个,合并为99个部首,排在100键的键盘上,每字击三次键便可输入。王安公司采用过此方案。杨联升提出“笔划字母”编码法,把所有的汉字分解成21种笔画,每一种笔画对应于一个拉丁字母,按汉字的书写顺序输入,这种编码是不等长码,但在标准的26个字母键的小键盘上可完成输入。李金铠的笔形编码与王永民的五笔画编码与此相类似。
在60年代至70年代出现的100 多种汉字编码方案中,笔画分解式编码占比例很大,世界各地包括香港、台湾的华人科学家,多数倾向于这类方案,究其原因,许多人由于方言影响掌握普通话较差,还有些字不能正确读音。但是,经过多年的研究和实践,终于得出一个结论:要正确地写出通用汉字的笔画,比正确读出它们的音困难得多。于是,一些研究者转向拼音编码。
汉字编码的中期
在笔画编码方案中,汉字基本笔画的划分种类很多,有4、5、6、8、10以至21、24、33种笔画的。在字根码方案中,不同的字根数有100、200以至400~500个的,而且拆分方法也难掌握。1958年我国推行了《汉语拼音方案》,每个字有规定的读音,这对编码十分有利。
周有光教授著的《电报拼音化》于1965年出版,其汉字拼音电码的构成为:一、拼音部分,与《新华字典》拼音相同;二、标调字母(加在音节后);阴平F、阳平X、上声V、去声H;三、定字字母:即将汉字部首分成20组,每组用1个字母代替,如:“力立老耒卤里鹿龙”为一组,由L代替,如“站”的拼音电码为ZHANHL(ZHAN—拼音;H—去声;L—“立”的定字字母)。定字字母多数是1个,少数是2个。这是全拼音方式的编码,有很好的可读性,在一万字内没有重码。
有一种全拼编码,只有声母和韵母两部分,而没有声调字母和定字字母,同码字多,需要显示选择输入,又把声母、韵母加以压缩,如现在通用的双拼码的压缩方案为:A-zh、B-ia/ua、C-uan、D-ao、F-an、G-ang、H-iang/uang、I-sh、J-ian、K-iao、L-in、M-ie、N-iu、O-uo、P-ou、Q-er、R-en、S-ai、T-eng、U-ch、V-zh/ü、W-ei、X-uai、Y-ong/iong、Z-un、;-ing。实例如:请Q;、您NL、欣XL、赏IG。这种编码将平均2.97字母,最多6字母的汉字音码全部统一为2字母,即双声母、复合韵母全用1个字母代替。因为汉语拼音的声母和韵母具有理想的数学结构,双拼替代后整齐划一,字母少输速快,受到了广泛的重视,目前装机使用面相当广。国内最早倡导此类双拼方案的是黎锦熙、唐艺等人,扶良文、郭淑珍、李金铠等设计的拼音码都是声韵双拼,曾经一鸣惊人的自然码也采用了类似的双拼方案。
汉语有400 多个音节,按6763个汉字计算,每个音节约有27个同音字;分出声调后有1200多个音节,每个音节约有6 个同音字,双拼方案的关键在于如何确定第三第四字母,以便妥善分化同音字,减少重码。郭淑珍等人较早设计的声韵部形码,将189个部首分为23类,每类对应1字母,同时将部首按意义分为五大类:自然、生物、生理、生活、余类。第三字母按部首定;第四字母按部首意类(五大类)和起笔交叉表确定。交叉表内,起笔分横竖撇点折,横排5行;部首意类竖排5列,表内有25个字母。实例如:怕PAXM(M是白的第一画与生理类交叉点的对应字母)。规则比较麻烦,以后改进为“声韵声声”,怕PAXB,X、B分别是竖心和白的读音字母。这已是典型的音形编码了。
汉字编码的盛期
由于科学大会的召开,改革开放的推行,微机技术的发展与普及,专利法的实施,汉字编码在80年代进入了盛期,新方案不断涌现,总数达700 多个。其中,优秀方案的综合指标比早期有很大提高,并投入实用。1986年3月,国家有关部门举办了全国汉字编码方案评测,有33个方案参评,评出11个A类方案,它们是:大众码、五十字元码、声数码、宏观字形码、层次四角码、前三末一码、部形编码、笔形编码、联合45-3码、CK码、JDL无间隔码。11个A类方案的平均输速为43.16字/分,这些方案主要是单字方式输入。1987年10月,中国中文信息学会等组织的“中华杯”汉字录入赛,操作员在规定字比赛中最高输速达70字/分,而在自选字比赛中均达100 字/分以上;1990年,在海峡两岸中文电脑表演赛上,专业操作员单字输入达147.8字/分,词语输入达203.3字/分。从这两次比赛上可以看出两大趋势:⑴第一次是形码夺魁,以后是音码领先;⑵词语输入成为主导方式。
词语输入是编码进入盛期的重要标志。对于二字词,形码方式取每字的一、二字根代码,音码方式取每字的声、韵代码;对于三字词,形码方式取一、二字的第一字根代码和第三字的一、二字根代码,音码方式取一、二字的读音首字母和第三字的声、韵代码;对于四字以上词,形码方式取一、二、三、末字的第一字根代码,音码方式取一、二、三、末字的读音首字母。词语输入使击键次数大大减少,输速上升许多。词语输入,对形码来说,仍然要掌握字根总表和全部拆分规则;对音码来说,只要掌握汉字的声韵即可,并能靠视读后的语音记忆成句输入,这大概是音码快过形码的原因。
在词语输入方式下,2字至20字或更多字,一般用4字母即可输入,如“国务院办公厅”GWYT(一二三末),这样,8字一句,平均每字0.5键次;16字一句,平均每字0.25键次。有人拉长句子编码选特定文章表演,说每分钟能输入500 字,这是可以做到的,但只能是特定文章,对于一般文章就不行。我们也不能根据这种特殊表演断定编码的好坏。
这一时期普遍采用标准键盘输入,多数用26字母键输入。此外,在程序设计上,还出现了高频先见、词语联想等功能,对于初学者来说,增加了易学性,对于熟练的操作员来说,这些功能则没有什么用处。
这一时期的汉字编码输入技术的长足进步,已在电脑打字、激光排版等领域大显身手。印刷业已经完全可以取代传统的铅字印刷,并且具有更好的质量、更高的效率、更舒适和更小型的工作环境。人们兴奋地赞扬说,印刷业开始告别铅与火而进入光与电的时代了。
汉字编码技术将如何发展
汉字编码方案已有700 多个,有人说,太多了,真令人眼花缭乱,应该选择一、二种作为规范或标准,以结束五花八门的混乱局面。另一些人说,汉字编码这么多,还没有一个理想的。从中文信息处理的高标准衡量,这后一种意见有一定的道理。
理想的编码是什么?是没有编。好像问:理想的国家是什么?是没有国家(世界大同),国家总是阶级压迫的工具。汉字编码仿佛是中文信息处理的镣铐,砸烂镣铐,才能自由奔腾、尽情舞蹈。目前的汉字编码输入,基本上是完成抄写机的任务,特别是字形编码,连排序都不能解决,情报检索、机器翻译更不行。钱伟长教授曾说:好的汉字编码还没有出来。好的汉字编码应该是一种文字,或者是一种准文字。
日本的汉字输入,开始用大键盘,以后用编码输入,最后采用输入日语罗马字转换为日本汉字,已研制成功日语罗马字——汉字假名翻译机。日本的电报早采用了日语罗马字(拼音)电报。已有学者预测,中国会走汉语拼音文字输入的道路,研制“汉语拼音文字——方块汉字翻译机”,以彻底解决中文信息处理的难题。这当然是长远的计划和目标。就近期而言,汉字编码的分项参数和综合指标都会有新的研究、新的提高,新的发展。
有人提出,汉字键盘输入分三个阶段:字处理、词处理、句处理三阶段。由于技术发展的原因,初期不能完成词处理(严格说是多字词处理),只能输入单字,划分为字处理和词处理阶段是合理的,也符合实际情况。在字处理阶段,100%采用单字处理;在词处理阶段,约有70%—80%采用多音节词处理,其余用字(单音节词)处理。实际上,在词处理中,已包含一部分词组、短语和句子。句处理,应该说一篇文章有70%—80%采用整句方式输入,我们至今没有看到这样的编码,有这样的电脑,将来也不大可能用。科学研究表明,人眼的视域宽度为8个字母,就算8个汉字吧,一个32字的句子,人眼要扫视4 个视域才能看完,看了后面会忘了前面,整句输入显然不便。一句中看一段输一段,实际还是词输入。退一步说,句处理能够成立,那么,其后的第四阶段该是段处理,第五阶段是篇处理,第六阶段是本(册)处理,这是不可能的。今后的编码基本以词输入方式为主发展。
智能化与汉字编码输入
现在的电子计算机采用大规模和超大规模集成电路芯片,属于第四代计算机。1981年,日本公布了研制第五代计算机的战略文件,引起世界性震动。第五代计算机具有存储知识、分析、判断和推理的能力,并且有语言、图形、图像处理和多种智能的本领,一句话,是具有人工智能(AI)的计算机。在这样的智能机还没有研制出来的今天,把智能化汉字编码输入过分渲染是违背科学的。很多人认为,计算机只能模拟人的智能,由人控制,给它输入什么,它才能输出什么,如此而已。
在数值运算中,因每个数字和运算符号都有单义性,唯一性,所以,虽经上万上亿次运算,其结果都会准确无误。如果加号和乘号是同一个符号,虽经几次运算,其结果也难以确定。同理,汉字信息处理也是如此。如果每一字词都对应单一的、唯一的码组,其输入输出的结果也会准确无误。但是,现在的汉字编码,绝大多数方案中单字有重码、词组有重码,输入输出的结果实难准确无误。这就是说,在文字信息处理中,语义信息是靠语音、字形等信息确定的,如果语音、字形信息本身残缺不全,要靠语义信息弥补是困难的,或者要靠计算机的智能化来弥补也是不行的。
最早的拼音输入方式是在敲击声母韵母后,显示出一串同音字(按区位或频度排列),如双拼hd: 1好2号3毫4耗5豪6浩……然后选择输入。词语联想可以说是这种方式的扩展,如击键输入“好”字后,显示出一串能与“好”字组词的词尾,如:1转2多3比4感5汉6人7事……选按6可组成:好人,等等。这种智能化应该可能说是非常初级的。近来出现了“智能化字词相关处理”,如“世纪”、“试剂”是重码词,但可自动生成“二十世纪”、“化学试剂”。这是利用语言环境作出的处理。如果语言环境本身不清楚,这种相关处理就会出现困难。如:“新试剂”而不是“新世纪”,一般说,这又要人工处理了,而且重码词还有“实际”“史记”等15个以上,用“相关处理”彻底解决重码词输入的困扰,就目前来说还不可能。
要彻底解决此问题,首先要在词语编码上加以区分,如“世纪”、“试剂”、“实际”,要增加词义或字形信息的识别吗,要增设标明声调的字符,这样,编码的码长就增加了。智能化越高,编码单义性就应越强,最后,编码就演变成一种文字了。
电脑阅读:文字的模式识别
电脑能不能阅读文字呢?应该说能“阅读”。50年代,国外试验了识别特殊字体的阅读机,得到初步成功。60年代末出现了识别手写体阿拉伯数字的实用机器,并已商品化。70年代的研究重点转向手写体拉丁字母和印刷体汉字的识别。80年代初,欧美已有识别机3000台以上,日本也有1000台以上。输入速度一般是每秒2000-3000个字符,据说最高的可达14400个字符,错识率、拒识率都很小,这种识别速度比人眼快100 倍。这是识别拉丁字母的机器。
光学字符识别机的构造,主要包括三个部分:一、文字模式的获取装置:即由送纸机构,把要识别的文字材料送到光电转换器中,光电转换器以扫描方式把文字符号转换成模拟视频信号,再按照一定的阈值转换成二进制点阵信号。以上步骤类似于无线电传真与黑白电视的信号处理。二、文字模式的分析装置:把前一装置中得到的字符电信号,进行消除噪声和压缩信息的预处理,再根据文字符号的骨架、端点、节点进行粗分类,抽取其几何图样的特征,按从上到下、从左到右的顺序来排列特征值,并对它编码,送入下一装置。三、文字模式的判别装置:事先这个装置为字库中的每一个字符准备一个标准化的图形,并以点阵编码方式储存在内。然后将前一装置传来的字符特征编码,与事先储存的标准化图形进行比较,由粗到精,逐级分类,得出结果,作出最后的判别。
字符数量大、差别小,就容易造成错误。手写体的1和7、3和5就容易相混。相反,字符数量小、差别大,区别性特征多,就比较容易识别。拉丁字母与阿拉伯数字印刷体的识别率已达到99.99%,这个指标在美国和日本都能实现,我国也接近这个指标。
日本和美国较早开始汉字识别机的研制,70—80年代,日本有一项“印刷体汉字的识别”计划,提出了各种方案,但没有圆满实现。研究者的结论是:困难与其说是原理上的,不如说是技术上的。拉丁字母用16×16的网格点阵就够了,而方块汉字用60×60的网格点阵还不够。日本常用汉字有2000个,比26个英文字母多75倍,为了区别众多的字符,所要处理的信息量达到英文字母的500 倍以上。中国国标一、二级汉字有6763个,其识别难度将是英文的2000倍。目前市场上的各种手写识别系统,一般只能识别单个汉字,其有效识别率最高只有94%,专门识别印刷体汉字的系统,其识别率也仅在98%左右。
机器翻译的概况
机器翻译,是要让机器代替人工翻译。机器翻译的过程可分为四步:一、源语文输入:把所有翻译的源语文的拼音文字材料,通过计算机键盘输入;也可用光学识别方式输入。二、源语文的识别与分析:计算机按照间隔符号识别源语文的一个个单词(语义的最小单位),再根据标点符号和一些特征词识别句法和语义。然后查找机内储存的词典和句法表、语义表,把这些加工后的语义信息传输到“规则系统”中去,从表层结构分析到深层结构。三、目的语文的生成与综合:将前两个过程倒转过来,即从深层又回到表层,生成目的语文的表层及各层次的结构。四、计算机内翻译加工处理完成,得到的是一连串二进制数字信号,然后将这些数字信号转换成文字。如果两种语文都用拉丁字母,输出和输入可用同一终端。如果两种语文用的是不同的拼音字母,则要另配一套终端。
在机器翻译领域,最令人头痛的是有关汉字汉语的翻译。即使费大力研制出自动翻译汉语的终端设备,机器的效率也很低,并且,昂贵的设备造价会把自动翻译的优点化为零。专家们认为,机器翻译汉语的最现实可靠的出路,就是采用汉语拼音文字、采用拉丁字母系统。
机器翻译从50年代开始研制至70年代进入第二代,即以形式语言学为指导理论,以句子为加工单位,句对句的机器翻译。1971年,有台将俄文译成法文的机器,翻译的质量并不十分理想。经统计,完全可以理解的译文句子占50%,勉强可以理解的句子占28%,无法理解的句子占22% 。这是花了巨大投资的结果,引起了严厉的抨击,机器翻译的研究,曾一度走入低潮,有人提出,完全自动化的高质量翻译是不可能的,起码在不久的将来是不可能的。
人们继续研究,科学家认为,机器翻译必须与人工智能联系起来,开始了第三代机器翻译的研制,这是以智能模拟的语义学和自然语言理解为指导理论,以语义分析转换基础,以句段为加工单位,句段对句段的机器翻译。对此,已引起了广泛的注意。在美国,许多专家预计在不久的将来,可以通过人工智能从根本上改进机器翻译的质量。
机器辅助翻译,又叫半自动翻译。先把大量的术语、成语和词组资源储存在计算机里,计算机在比较浅的层次上对词汇部分进行检索处理,人则在较深的层次上对句法、语义和修辞方面进行加工,这是提高翻译速度和质量,减少费用的较有实际价值的方法。