汉字编码输入法综述(二)

3 实用系统

3.1 实用系统分类

最常见的分类法是按编码时使用的特征信息元(或称字元)将汉字编码输入法分为音码、形码、音形码和形音码。音码又可以细分为全拼码、双拼码、简拼码。形码又可以细分为部件码和笔画码。部件码需要将汉字拆分为部件或字根,再将它们通过音托、位托、形托等方式映射到键盘字符。音形码以音为主以形为辅。形音码以形为主以音为辅。

另外,按处理对象大小来分,汉字编码输入法可以采用单字型、字词型和语句型;按适用的输入者来分,汉字编码输入法可以分为普及型与专业型;按编码时使用的字符来分,汉字编码输入法可以分为字母码和数字码;按软件的适应性来分,汉字编码输入法可以分为通用输入法平台(又称码表输入法)和专用输入法(或称定制输入法);按使用的键盘来分,汉字编码输入法可以分为通用键盘输入法和数字键盘输入法。

最后,还可以按照汉字编码输入的发展历程将其分代。目前,分代方法并没有形成共识。汉字编码输入法究竟分为几代?每一代的特征是什么?这些问题都有不同的看法。吴越将汉字编码输入法分为三代。其断代标志为:第一代,以单音节的字为单位输入;第二代,以词语(包括单音节和多音节)为单位输入;第三代,除了有固定词库可以用通用词输入外,还可以根据用户的需要自造词语,并具有人工智能,可以自动选择区分重码(同音)词 [28]。单波也将汉字编码分为三代,但是各代的特征与吴越所描述的大不一样 [29]。

本文在叙述时,按历史发展进程把汉字编码输入法分为第一代、第二代、第三代,各代的特征与单波和吴越描述的都不一样,在具体论述时会加以说明。由于除第一代外,各代的汉字编码输入法的数量都很多,因此本文只能选择具有代表型的和具有较大影响的作比较详细的介绍。数字键盘编码输入法,作为目前大家的研究热点,单列出来进行评述。最后,单独介绍一下比较常见的通用输入法平台。

3.2 第一代汉字编码输入法

电子工业部第六所于 1983 年正式公布了我国第一个中文磁盘操作系统 CC-DOS,这在我国中文信息处理历史上具有划时代的意义。CC-DOS 是在 PC-DOS 的基础上扩充、修改而成。在广泛使用的 CC-DOS 2.1 版中,有简拼、首尾码、快速码和区位码输入法,已经涵盖了包括音码、形码、音形码和数字码这些主要类型的输入法,对我国计算机应用的普及起到了开路先锋的作用。

当时使用得最广泛的输入法是简拼和首尾码。简拼是纯音码,使用的是介于全拼和双拼之间的一种拼音方法,对三个及三个字母以上的韵母进行了压缩。首尾码是一种纯形码,包含 97 个部件,分为 52 类;部件到键盘字母的映射没有太多的规律可循,记忆量很大;编码时只取字首和字尾各一个部件,对于未列出的变形部件需要输入者自己去猜测其应归属的键位。这两种方法都不支持联想,也不支持词组,都有很多重码。因此,在输入时选择、翻页操作很频繁,眼睛需要不断地扫描提示行以便在众多的重码中找寻所需的字,输得又累又慢,更不可能实现盲打。

快速码是通过压缩拼音加码方法实现的,可以在一定的程度上离散重码。由于快速码的加码方法没有规律可循,因此没有得到真正的应用。区位码需要完全要靠死记 6763 个汉字和符号的数字编码来输入,因此除了用于输入当时还没有其它办法输入的特殊符号外,基本上没有人实际使用。尽管如此,快速码仍然为后来的音、形结合编码指出了方向,区位码仍然为后来的数字码提供了一条线索,它们的理论指导意义大于实用意义。

另一个早期的汉字编码输入法是电报码。电报码最初并不是用于汉字输入的,而是用于拍发电报的,是最早的汉字数码方案。电报码由丹麦人设计,早在清光绪六年(1880 年)就已经在我国使用了。电报码为 4 位等长码方案,使用的码字从 0000 到 9999,可以代表一万个字符(包括汉字、字母、符号)。电报码没有重码,但编码的规律性不强,十分难记。因此,它完全是为了邮电部门那些已经熟悉电报码的人的需要而移植进计算机的,对一般的汉字输入者没有什么意义。

1986 年,联想集团在推出联想汉卡的同时推出了联想式汉字环境,首先使用了联想方法来加快汉字的输入。那时还没有词组输入方法,联想技术让人耳目一新。汉字输入过程由原来的编码 -> 翻页 -> 选择 -> 编码… 变成了编码 -> 选择 -> 选择…,因此稍后的很多输入法都采用了这种技术。不过,按照现代汉字编码输入技术的标准来看,联想技术仍然存在两个致命的弱点。一个弱点是,如果后续要输入的字与前面已输入的字不能构成词组的话,则联想就会失败。另一个弱点是,联想选择时人机交互过于平凡,虽然平均码长缩短了,但是实际的输入速度反而会下降。

总之,第一代汉字编码输入法是在汉字操作系统建立的同时诞生的。在西文操作系统上实现汉字操作系统有许多工作要做,例如汉字字模的设计、汉字的显示、打印等等,汉字的输入仅仅是其中的一个部分。那时,汉字操作系统是由计算机专家完成的,汉字编码专家几乎未能参与其中,虽然当时已有一些人在专门搞汉字编码了。由于计算机的价格还很昂贵,汉字系统的用户很少。汉字编码输入法使得汉字能够输入计算机了,但几乎还没有考虑易学、易用和快速的问题。

第一代汉字编码输入法的特点是:在 DOS 环境下,以单字为单位进行输入,在屏幕底部提供专门的提示行显示数量众多的重码字,翻页、选择操作频繁;用数字键选择重码字,用 ALT + 数字键可重复选择出现在提示行中的重码字;连极为常用的标点符号的输入需要使用区位码,很不方便;联想技术的采用使输入效率有所改善,但其作用是相当有限的;各种输入法间的切换(包括切换到英文)都是通过复合功能键 ALT+Fn (F1-F12) 来进行的;支持全角和半角方式,但不支持中文标点方式;不支持词组输入,更不支持自定义词组。

3.3 第二代汉字编码输入法

1986 年,四通公司与日本三井物业合作,推出了四通 MS-2400 中文电子打字机,宣告了中国专业电子打字时代的到来。由于当时微型计算机的价格还很昂贵,一般的个人用户根本买不起。而单位用户主要希望解决办公打字的问题,并非必须使用微机不可。四通打字机既比较便宜又能适应输入汉字和编辑打印的要求,正好迎合了市场的需要。另外,为了适应没有四通打字机的个人和单位的需要,采用四通打字机的商业打字店也应运而生。随着四通打字机的广泛使用,首先捆绑在四通打字机上的五笔字型输入法也在其发明人王永民的极力推广下流传开来,以培训专业打字员为目标的遍布全国的商业电脑培训机构更加速的五笔字型的推广,造就了几十万使用五笔字型的打字员。后来捆绑到四通打字机上的由刘卫民发明的双音输入法也在当时得到比较广泛的使用。

九十年代初,一方面由于四通公司的内部运作出现问题,另一方面也由于微机的价格迅速的下降,四通打字机逐步的被微机取代。由于在微机的汉字操作系统上汉字编码输入法是可扩展的,这就为其它非四通打字机输入法提供了发展空间。但是,与五笔字型类似的以拆分汉字为基础的部件类输入法,如表形码、郑码,虽然比五笔字型相对易学且输入速度也差不了多少,发明人的名气也比较大,然而面对已在专职打字员输入法市场上占尽先机的五笔字型,最终没能广泛被用户采用。更具有讽刺意义的是,曾在 86 年的首届汉字输入方案评测中被评为 A 类的 11 个汉字编码方案没有一个得到了广泛的使用。倒是面向一般使用人员的自然码脱颖而出,在克服了双音输入法在速度上的缺陷后,在日益扩大的非职业打字领域得到了广泛采纳。这样便形成了以王永民的五笔字型、刘卫民的双音输入法和周志农的自然码为代表的第二代汉字编码输入法格局。

五笔字型是最典型的纯形码部件类方案。在五笔字型中,一般将部件称为字根。五笔字型采用了 130 个基本字根。基本字根按起笔分为五类,对应通用键盘上的五个区。每类又细分为五组,每组对应一个键盘字母。在一个汉字中,字根间的关系被归纳为 “单、散、连、交” 四种。在汉字拆分时,遵循 “取大优先,兼顾直观,能连不交,能散不连” 的原则。

五笔字型将汉字被分为键名汉字、成字字根汉字和键外汉字三种,分别服从不同的编码规则。键名汉字有 25 个,其编码是重复其所在键上的字母四次。成字字根汉字有近一百个,其编码规则为 “键名码 + 首笔码 + 次笔码 + 末笔码”,不足三笔时按 “键名码 + 首笔码 + 末笔码” 编码。键外汉字数量最多,其编码规则为顺序取字的第一、二、三、末字根码,不足四个字根的需补加一个交叉识别码。交叉识别码根据字的末笔(横、竖、撇、点、折)和字型(左右型、上下型、杂合型)而定。另外,字的编码还有一、二、三级简码,其形成方法是取相应全码的前一、二、三个字母。

五笔字型将词组也分为二字词、三字词和多字词三种。二字词按顺序取各字的前两个字根来编码。三字词按顺序取头两个字的第一个字根和末字的前二个字根来编码。多字词按顺序取第一、二、三、末字的第一个字根来编码。

职业打字员打字时的一个重要特征是看稿进行录入,并且要求很快的输入速度。所以他应尽量少地去观察提示行和已输入的内容,否则当他回头看稿时再次定位应输入的汉字就会非常吃力,从而极大地影响录入速度。只看稿件进行打字就是平常所说的盲打。绝对的盲打实际上是不可能的。可能的是尽量不将视线离开稿件。职业打字的另一个特征是录入的内容比较广泛,承接商业打字业务时更是如此。这就需要他记住各级简码,知道哪些字应该使用简码输入,哪些字应该用全码输入,哪些词是输入法有的,哪些词是输入法没有的。由于词组的数量巨大,收录过多的词组一方面会加大重码率,另一方面也会增加记忆量,因此职业打字员多以单字输入为主,辅以常用的词组。这也暗示着自定义词组在职业打字中起的作用是十分有限的。鉴于以上原因,要成为一个合格的职业打字员,除了具有灵敏的手指外,没有数月的专门的系统的打字培训是不可能的。

五笔字型以非常复杂的编码规则换来了在 GB2312-80 字符集内较低的重码率。当采用强制简码时,还可进一步将低重码率。词组编码被放进全码字的剩余编码空间中,实现了字词混合编码。只要收录的词组量不大,发生重码的可能性是比较小的。一般的五笔字型也不具备自造词的功能。五笔字型拥有的这些特点,正好适应了职业打字的需要,成为它在职业打字时代非常流行的重要原因之一。

虽然五笔字型在市场上取得了巨大的成功,但它存在的问题也是不容忽视的。首先,五笔字型是非常难学的,而且容易遗忘。它除了有非常复杂的编码规则而外,还有很多例外需要记忆。五笔字型打字员在打字时对一些常见字出现 “卡壳” 的现象是很普遍的事情。这时就需要临时换用拼音输入法来输入 “卡壳” 的字。其次,五笔字型的扩展性差。当字符集从 GB2312-80 到 GBK 和 GB18030 过渡时,当词组量增大时,五笔字型在码长为 4 的码位上会出现大量的重码,使其丧失重码率低的优势。五笔字型采用的是 4 码无重码自动上屏的策略,4 码重码增多就迫使打字员的视线更多地离开稿件来观察提示行以确认自己的输入,从而减低录入速度。最后,五笔字型最致命的弱点是规范性差。张孝存等就此提出了言辞激烈的批评 [25]。“五笔字型违反语言文字规范。它对汉字的拆分具有相当大的随意性,对国民基础文化素质具有不可忽视的负面影响。它对规范的汉字教育的冲击同其应用范围的扩大成正比。” 所以,五笔字型不能适应一般汉字输入者的需要,更不能适应中小学汉字输入教学的需要。

双音输入法是一种比较巧妙的纯音码,曾经是四通打字机和西山 DOS 的必备汉字输入法之一 [28][30]。双音输入法支持全拼、简拼和双拼三种拼音方式。对于全拼来讲,除了用 v 代替 ü 而外,音节的拼写形式和标准汉语拼音完全一致,非常简单,会拼音的人基本上不用学习就会,但效率最低。简拼是为兼容早期 CCDOS 而设立的。双拼用两个字母代表一个音节,是效率最高的拼音方法,但学习时的记忆量也最大。在双拼双音中,可以选择采用刘氏双拼,也可以选择采用四通双拼。

双音输入法最大的特点就是 “以词定字、反向联想”,以缓解纯音码方式下单字重码过多的问题。因为二字词的数量很多,所以一般情况下总可以找到某个二字词,它的第一个字就是你想要输入的字。如果该二字词处于提示行的第一候选位置,则可以省略选择键;否则需要用数字键进行选择。如果整个二字词都是你需要的,你可以加一个空格键输入第二个字。也就是说,如果采用双拼的话,利用 “以词定字” 技术可以使得常用字输入时的平均击键数为 2.5,而且基本上避免了传统拼音 + 联想方式下过多地扫视提示行和翻页、选择的毛病。联想方式仅仅作为一个选项,并不怎么推荐使用它。

在双音输入法中,对于三字词和四字词,取各字的声母作为编码来输入,必要时加空格结束。对于不认识的字,可以打入 “\” 调用 “手写模拟”,其规则是:首末两笔打代码,中间笔画用空格代替;如果事先计算出应输入的空格数,也可以用数字键代替应输入的空格数。虽然可以自定义词组,但它不支持在线造词。造词时需要用外部文本编辑器按照它定义的格式输入编码和对应的词组。

双音输入法是拼音汉字输入历史上的一大进步,在当时受到了许多非职业打字员的欢迎。但是,它也存在一些比较严重的不足,以至于现在几乎没有人再使用它了。首先,虽然在输入效率上它较传统的拼音有很大的提升,但是它与后来的语句级拼音输入法如智能 ABC 相比,还有相当的差距。另外,“以词定字” 时很多字可以采用多个词来确定,而有的字难以找到词来确定,用户常常感到不知所措。虽然双音输入法中提供了很多其它的方法来解决单字的录入问题。例如,邓、郭、姚等姓氏用字的输入就有 6 条辅助规则。要记住这些方法并判断何时采用何种方法可不是一件容易的事情。由于只能离线造词,所以词组的自定义也很不方便。

自然码是最具代表性的音形码 [31]。吴越在 1993 年对自然码作出了极高的评价 [28]。他说自然码输入法 “是目前以拼音为基础的普及型汉字输入系统中最先进、最好学、最方便、最快捷、具有最大人工智能容量的一种方案”。这种评价在当时来说,除了 “最好学” 这一点是言过其实了(因为它显然没有全拼或笔顺输入法简单)而外,其它的优点自然码都是具有的。自然码在拼音部分采用了在 CCDOS 简拼的基础上修改而来的双拼,以方便 CCDOS 用户向自然码过渡。自然双拼与刘氏双拼和四通双拼都是不一样的。

为了解决拼音输入中普遍存在的同音字问题,自然码采用了与双音输入法完全不同的策略。它通过在双拼后附加形码,大大减少了单字的重码。其形码部分采用 “近义部部首分类” 法,最多可有两码,用部首读音的声母作代码,取码时坚持 “义部优先” 的原则,以便减少记忆量和增加形码对重码字的离散能力。采用附加的形码来区分同音字还可以避免双音输入法中一个字可以利用多个词组来确定的不确定性。对于不认识的字,可以用单纯使用形码部分输入,但需要以 “/” 键开头进行引导。

自然码的简码字也很有特色,除了传统上用 “声母 + 空格” 输入的高频简码字而外,还有用 “声母 +;” 输入的次级简码字和用 “声母 +’” 输入的附加简码字。自然码还设置了用 “声母 + 声母 +’” 输入的简码二字词,以加快高频二字词的录入。输入一般的二字词时,词组作为一个整体上屏,比双音输入法的 “以词定字” 每输入一个二字词就少用了一个空格键。三字词用各字的声母 +“’” 输入,单独享有编码空间。

自然码还设计了 “中文标点状态”,使得常用标点符号的输入和半角字母、数字的输入可以不加切换的进行。自然码的外挂技术使得它可以不加改变地挂接于所有常见的中文 DOS 系统上。考虑到南方人普通话不准的现实,自然码还提供了南方音选项。设置南方音选项后,用户可以不区分声母 z 和 zh、c 和 ch、s 和 sh,也可以不区分 en 和 eng、in 和 ing,还可以不区分 wang 和 huang、n 和 l。当然,这时的重码就增多了。联想方式在自然码中也仅仅是作为一个选项提供的,但由于人机交互过于频繁,严重影响输入速度,因而熟练的用户是不会使用的。自然码还对中文数字、日期、时间、制表符等提供了编码式的快速输入手段;对字词的叠加操作也相当方便,可以用于输入 “想想”、“思考思考”、“试一试” 等。

智能相关处理是自然码宣传得很多的一项技术。它实际上是一种扩展的联想技术,即把联想用到了词组与词组之间。例如,输入 “知名” 以后再输入 “rfui”(标准拼音为 “renshi”)后会把 “人士” 作为默认选择,而输入 “不久” 以后再输入 “rfui” 则会把 “人事” 作为默认选择。

在线造词是自然码自誉的另一特色。在汉字输入过程中,如果敲完某个词的拼音以后发现这个词不存在,立即敲空格键,系统便进入 “自动加词状态”;这时,连续输入的字、词都作为新词的内容,在送到屏幕上的同时便被纪录到自造词库中;当再敲空格键或回车键时,系统结束自造词操作。如果想造词的编码正好与其他词的编码重复,这时就要按 Shift+Tab 复合键进行强制造词,此后的操作与前面相同。对于已自定义的词,还可以将其删除。删除的方法是,在输入词的编码且词还未上屏时,按 Ctrl + 回车复合键;此时,如果无重码则那个唯一的词被删除掉,如果有重码则还需要选择想删除的是哪个词。需要说明的是,系统自带的词是不能删除的。在进行了增、删词组的操作后,在关机或重新启动计算机之前,必须先将自造词库保存到磁盘中,否则关机后所作的修改就无效了。

总之,第二代汉字编码输入法都是在 CCDOS 2.1 的原始输入法的基础上发展起来的,以提高汉字的输入速度为主要目标,增加了词组的输入,单字输入时的重码也减少了,出现了中文标点状态,多数都能自定义词组。第二代汉字编码输入法非常多,除了上面介绍的而外,在大陆影响较大的还有陈爱文先生的表形码、郑易里先生的郑码、钱玉趾先生设计的未来码、肖水清先生的肖码、萧启宏先生的启宏全息码等 [55] [56],在港台影响较大的还有朱邦复先生的仓颉输入法、王赞杰先生的大易输入法、廖明德先生的行列输入法、陈华伟先生的华象中文输入法、刘重次先生的呒虾米中文输入法、戚桐欣先生的中易系统、黄金富先生的唯物输入法等,另外还有美籍华人饶达先生的饶氏笔形输入法和美国王安电脑公司开发的王安三角编码法等。

你可能感兴趣的:(汉字编码输入法综述(二))