汉字编码输入法综述(三)

3.4 第三代汉字编码输入法

到了九十年代末,随着微微机价格的进一步降低、存储处理能力的进一步增强、Windows 图形操作系统的流行和国际互联网的兴起,用户界面变得非常友好,微机才大面积地进入中国的普通百姓家庭,进入了中小学教育中,真正实现了微机在中国的大普及。

微机的大普及使得打字成为每个接受过基本教育的人的基本技能,就像会写汉字一样;需要别人打字就像需要别人代笔一样,实际上是文盲的标志。这样就造就了一个庞大的一般计算机用户群体他们都是非职业的打字员。这就意味着,打字员作为一个职业正在快速消失。一般用户在打字时的操作方式是 “想打”,和职业打字员的 “盲打” 方式完全不同。“盲打” 要求操作者尽量少看屏幕,输入法提供的反馈信息只有在操作不能 “盲打” 时才偶尔派上用场;而 “想打” 时操作者始终是看着屏幕的,输入法所提供反馈的方式和反馈信息量的大小都会对操作者的输入活动产生巨大影响。Windows 图形操作系统也为人机界面的丰富化提供了前提条件,可以满足反馈信息多样化的需求。

现代微机强大的存储处理能力为新型的存储密集型和处理密集型输入法的诞生提供了物质基础。输入法程序不再局限于 DOS 时代 64KB 的驻留内存中。千兆级的运算速度使得复杂的智能算法得以投入运行。硬盘容量不仅从兆级扩大到千兆级,访问硬盘的速度也比 DOS 时代大大提高。将巨型的词库存储在硬盘上并进行快速搜索已不成问题。

计算机教育日益广泛地在中小学开展后,学生们从小就开始学习打字了。汉字编码与语言文字教育的关系问题被尖锐地提了出来。起码的要求是,汉字编码不能与语言文字知识相冲突。理想的情况是,把汉字编码输入与语言文字知识的学习结合起来,起到相互促进的作用。

在上述背景下,第三代汉字编码输入法应运而生,其指导思想是:规范、易学、易用并且尽量保持输入速度。这一时期智能化拼音输入法的研究高潮迭起 [32]-[51],也出现了以笔画或笔对为输入单位的纯形码,还出现了以声母和笔画(或笔对)为基础的音形码。

(1) 智能化拼音输入法

智能化拼音输入法按其实现原理可以分为四种:基于理解的、基于语用统计的、基于模板匹配的和基于上下文关联的。

基于理解的智能输入主要利用汉语语法知识来消化同音字词,化解分词歧义,是出现得最早的智能拼音输入方式。它通常表述为计算机能够识别和处理的一系列固定搭配、公式和规则,属于人工智能中的自然语言理解领域。根据自动分词得到同音字词的候选集,查找知识库获得相关规则,再经过规约推理,得出转换结果。利用句内编辑实时修改转换错误,驱动系统知识不断完善和充实。这类系统的优点是:转换的正确率比较稳定,软件的开销视知识库的规模可大可小。缺点是:连续拼音整句输入时,平均码长较长,而采用简拼时键选率很高;偏重于整句处理,当出现转换错误时,需要使用者回头去进行繁琐的矫正,干扰了正常的思维;建立知识库时,汉语知识表达困难;自动分词过程中切分歧义等影响了分词精度。这类系统中最有影响的是北京大学朱守涛研制的智能 ABC,其它还有哈尔滨工业大学王晓龙等研制的 InSun 拼音语句输入系统、张普负责的 “七五” 公关项目 PJS/TLS 汉字输入系统、北京大学的北大 CW 系统、香港陈经纶的经纶系统、加拿大陈岱的天马系统和广州林才松的汉语无编码输入系统。

基于语用统计的智能输入主要利用语用统计的数据来消化同音字词和化解分词歧义,属于运筹学领域。使用概率统计运筹决策的方案很多。可以通过统计字字相关的同现概率矩阵来完成汉语语用统计库结构,这个矩阵的大小是固定不变的,只与字符集的大小有关。也可以采用基于理解和基于语用统计相结合的设计。该设计根据分词后的输入语句查找知识库,用句法、词法、语义和自定义的规则作为制约对文章进行解析推理,当存在同音词时,采用最优评价法来确定最佳选择作为转换结果。同音词的评价值,需要考虑词性、同现概率、近期使用状况等因素。具有最优评价值的选择即为转换结果。当具有最优评价值的第一选择并非目标选择时,可选用次优选择或用手工方式进行修正,候补修正或人工修正均被记录,作为下次转换时修改计算评价值因素的依据,也就是自学习功能。这类系统的优点是:对于已经进行过语用统计或者具有相同类型的领域,系统的转换正确率比较高;对于每一个用户而言,在使用过程中,语用统计库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型;软件开销不大。缺点是:作为一个整体的同现概率矩阵,不能做到模块化、积木化;偏重于整句处理,当出现转换错误时,需要使用者回头去纠正,干扰了正常的思维;目前的自动分词准确度只能达到 98%左右,使键选率的降低受到限制。这类系统中最有影响的是微软公司的微软拼音输入法,其它还有蔡榕先生的最优评价函数法拼音汉字转换系统、蒋子龙先生的 Autoway、清华大学人工只能实验室夏莹等的智能输入软件。

基于模板匹配的智能输入将汉语语法知识寓于巨量的模板词中,进而利用这些模板词来消化同音字、词,以及化解歧义分词。系统通过模板词搜索引擎来完成汉语语法体系的组织。由于需要搜索巨量的语料,获取巨量的模板词,才有可能大体上包容汉语语法知识,例如,智能狂拼搜索了 100 亿字语料,模板词库最大时需要约 540MB 存储空间。根据分词后的输入语句查找模板词库和句法规则库,然后进行匹配处理。如果匹配结果唯一,则不必再用概率推理;若存在两个以上的候选结果时,则根据句法规则或概率推断进一步判定,选出一个最有希望的可能结果作为输出。这类系统的优点是:对于已经搜索过模板词的或者具有相同类型的领域,系统的转换正确率比较高;对于每一个用户而言,在使用过程中,模板词库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型。其缺点是:由于模板词数量巨大,对电脑硬件有一定的要求;注重连续和完整的音节输入,平均码长较长,采用简化拼音输入时键选率较高;偏重于整句处理,当出现匹配错误时,需要使用者回头去纠正,干扰了正常的思维;目前的自动分词准确度只能达到 98%,使键选率的降低受到限制。这类系统中最有影响的是中文之星数码科技有限公司推出的智能狂拼,其它还有黑马电子新技术公司推出的黑马智能输入软件和大自然软件开发有限责任公司推出的自然码 2000(句输入版)。

基于上下文关联的智能输入利用上下文关联的语用环境来智能选择重码字、词,属于自动控制分支非线性控制范畴。它将自然语言看成是一个模糊的集合,将汉字输入系统作为一个基于非线性控制范畴的模糊控制系统来对待。预学习工具或者转换出现错误时的手工键选信号相当于一个传感器。算法程序、汉语知识库和动态语用统计库作为非线性调节器,使得系统的键选率和平均码长逐渐趋于最优。这类系统的优点是:对于已经预学习过或者具有相同类型的语料,键选率比较低;对于每一个用户而言,在使用过程中,汉语知识库将会从最初的通用型逐渐改变为符合这个用户语用习惯的专用型;采用字段输入,不使用语句级输入,使语法规则简约化,易于知识表达,不但降低了键选率,还大大缓解了输入过程中 “回头看” 的问题;在拼音输入时,采用人工分词,在形式上与英文接轨,既可以避免 3%的歧义分词错误,大幅度降低键选率。其缺点是:字段输入还未能完全根治输入过程中 “回头看” 的问题,当终选字词有错时,仍然需要近距离的即时修改;对于 “上下文关联” 机制中的 “下文关联” 人机界面,用户需要一个熟悉的过程。这类系统中比较典型的有青月亮科技开发有限公司推出的青月亮汉字通智能输入软件平台 GM3.1、二笔软件有限公司推出的二笔智能输入软件和字原科技有限公司推出的 101 智能输入软件 TZ8.2/9.1/2000。

智能 ABC 是目前 Windows 操作系统上使用得最为广泛的准语句级拼音输入法,因为它是以词组和短语为单位而不是以全句为单位进行转换的。它早在 DOS 时代就产生了,当时使用得并不广泛。它之所以在 Windows 时代大肆流行,一方面是因为 Windows 预装了它,另一方面是因为大多数新的计算机用户都是学过汉语拼音的年轻人,他们不需要学习就可以使用智能 ABC。虽然输入速度没有五笔字型那样快,但是也能基本上满足他们的需要了,同时节约了长达数月的学习时间。

智能 ABC 支持全拼、简拼、混拼、双拼、笔形和音形多种输入方式。全拼使用标准汉语拼音,但需用 v 表示韵母 ü。简拼仅需输入各字的声母。混拼介于全拼和简拼之,可以不同程度地省略拼音字母。笔形输入方式将笔画归为横、竖、撇、点、折、弯、叉、方八类,分别用 1、2、3、4、5、6、7、9 代表,按笔画顺序为汉字编码。音形方式是在拼音(全拼、混拼、简拼)后面加笔画。智能 ABC 有标准和双拼两种状态。在标准状态下,可以不加切换地使用除双拼以外的输入方式,为用户提供了极大的灵活性。简拼和混拼主要是为了减少击键数。在双拼状态下,不能使用全拼、简拼和混拼。使用双拼是为了提高输入速度。笔形方式用于用户不认识的字的输入。音形方式则是为了在输入单字时减少重码。

智能 ABC 最大的特色是能够非常方便地自定义词组和调整重码字词的顺序。用户只需按自己的想法进行输入,输入时可以不进行手工分词,系统会从前到后逐个进行自动分词。在没有词组时,系统自动按单字显示重码字供用户选择;一旦用户选定并组成新词后,系统就可以记住它。在系统分词不正确或系统提供的词不是用户需要的词时,用户也可以加以修改,系统也能记住用户所作的修改。通过较长时间的使用后,如果用户没有发生变化,系统逐步适应该用户的使用习惯,使用户的输入过程变得自如起来。

智能 ABC 也有很多值得改进的地方。首先,在输入时可以随意使用全拼、简拼、混拼,输入者可以在任何时候进行音字转换,过多的方式让用户不知哪种是最好的。看似非常灵活,但却实际上是把优化输入的任务交给了用户。但大多数用户不是这方面的专家,不可能很好的完成这项任务,从而导致用户走很多弯路或形成不好的、低效的输入习惯。其次,音字转换的准确率不高,句内修改很频繁,导致输入速度不理想,即使使用双拼也没有自然码的效率高。

微软拼音是真正意义上的语句级音字转换智能输入法,是微软自然语言处理技术多年科研成果的结晶。借助于微软操作系统的优势,加上微软拼音本身的较优异的性能,它的用户群体正在逐步扩大,出现了取代智能 ABC 地位的趋势。

微软拼音采用拼音作为汉字的录入方式,用户不需要经过专门的学习和培训,就可以方便使用并熟练掌握这种汉字输入技术。微软拼音采用基于语句的整句转换方式,用户连续输入整句话的拼音,不必人工分词、挑选候选词语,这样既保证了用户的思维流畅,又大大提高了输入的效率。

微软拼音还为用户提供了许多特性,比如自学习和自造词功能。经过一段时间与用户交流,微软拼音能够学会用户的专业术语和用词习惯,从而提高转换准确率,使用户用得更加得心应手。为了适应方言地区用户的需要,它还提供了模糊音设置。另外,微软拼音还支持繁体字的输入。

微软拼音提供的人机界面非常具有特色。组字窗口可以嵌入正在输入的文本的插入光标处,减少用户在输入时视线的移动频率,使得输入法的易用性得到了很大提高。逐键变换提示并提示转换结果,使得用户不必自己做合适进行转换的决策。用户可以输入的输入码长度没有限制,当超过系统的长度上限或遇到句号时系统会自动进行转换,以便用户能继续不间断地输入。由于考虑的上下文较广,微软拼音能够达到很高的转换准确率。微软拼音在默认情况下拒绝用户输入简拼和混拼,引导用户养成良好的输入习惯。

微软拼音也存在一些问题。首先,在编码输入出错或转换不正确时进行句内编辑的操作很繁琐和低效。其次,逐键变换时往往会把已经转换正确的内容又修改错了,用户不得不随时监视输入内容的正确性,当已转换的内容较多是非常劳心的。另外,微软拼音没有提供方法加速单字的录入,也没提供方法来输入不认识的字,是不完备的输入法。

(2) 基于笔画(或笔对)和 / 或声母的输入法

所有智能化的拼音输入法都存在两个共同的问题。一个问题是,音字转换正确率不可能达到 100%,且因输入文本不同而有很大差异,另外输入的句子越长击键出错的概率越大,因此繁琐的句内修改编辑不可避免,导致易用性和输入速度下降。还有一个问题是,对于普通话或拼音不好的人学习难度很大。

所有基于部件的输入法,如五笔字型、表形码等,虽然速度都比较快,但是都存在记忆量大、编码规则复杂、规范性差等比较严重的问题。

基于笔画(或笔对)和 / 或声母的输入法正是为了克服以上两类输入法的缺点并且尽量保持它们的优点而提出来的。采用笔画、声母这两个最简单的汉字特征信息来进行编码,可以极大地提高输入法的易学性 [17]。但是,汉字的笔画一般归为五种。笔画种类太少,势必增加编码的长度,从而影响输入速度。于是,如何缩短码长、提高录入效率成了这类输入法成功与否的关键问题。

福建双笔码软件开发有限公司研制的双笔码是一种基于笔画的纯形码。为了克服笔画种类过少的问题,双笔码引入了一种新的笔画类型 “叉”,从而将笔画种类扩大六种,取码时按顺序每取两笔构成一个笔对,共可形成 36 种不同的笔对,并在键盘上有序的将键位分为八个区,然后在相应的键位区内选择键位输入。另外,双笔码还规定病字旁、“口”、提手旁和 “日” 应作为一个整体取码。病字旁和提手旁均用其头两笔代表,“口” 用竖代表,“日” 用横代表。

根据汉字不同构造的组合形状,双笔码把汉字划为三类基本字型即左右型、上下型和综合型。不论哪种类型的汉字,均按四码进行编码。

左右有明显的空间分割,左右有边旁且左边先起笔的字,确定为左右型。在输入时,左右型字的左边最多用两个笔画,右边不限,即左边笔画仅为一笔,则按汉字先左后右的书写顺序,左边笔画与右边笔画一起,按顺序每两个笔画合为一对,在相应的键位区内选取。

对上部和下部明显分开,且有一方是基本汉字构成或上部是部首字头的确定为上下型。还规定如最下部是某一汉字构成,则以上的都归为上部。在输入时,按汉字书写从上到下的顺序,每两个笔画合为一对,在相应的键位区内选取。但是对上部笔画多于四笔的,有如下规定:上部笔画多于四笔,则仅用前四笔的笔画,然后与下部笔画一起,按顺序每两笔合为一对,在相应的键位区内选取。

所有的独体字,和所有不能分为上下,左右型的汉字都是综合型的。输入时,按汉字书写顺序,每两个笔画合为一对,在相应的键位区内选取。注意,辶字底的字都规定为综合型的。

在汉字中近半数字为奇数笔画,双笔码为此设立了单笔画区,该区与横区和竖区有重叠。对于奇数笔画的字有可能输入的末笔为单笔画,这时只要在单笔区输入单笔画就可以了。在汉字中还有许多字的笔画较少,这类字有可能仅一键或两键就把笔画输入完了,这时还可能需要继续进行输入。继续输入时可以使用汉语拼音,也可以重复使用基本笔画,但不能使用叉笔和特殊记忆部件进行重复。

双笔码词组的输入方法为:二字词输入每个字的头两码;三字词输入前两个字的头一码和末字打头两码,四字及四字以上词输入一、二、三、末字的头一码。

双笔码的优点是:与传统的部件类输入法相比,记忆量减少了许多;采用笔对和 36 键编码后平均码长也相当短;如果不按笔对而按单笔画输入,就可以非常容易地向数字键盘移植双笔码。但是双笔码的缺点也非常明显:作为基于笔画的输入法,它的取码和编码规则十分复杂,另外也不少,学习难度仍然很大;采用了上排数字键进行编码,击打不方便,且与常用数字的输入相冲突,影响了实际输入速度。

陈劲松先生发明的二笔输入法是目前使用得比较广泛的输入法之一,已有多家公司和个人推出了该输入法软件。它是一种基于声母和笔画的输入法,也可以单纯基于笔画进行输入。

二笔输入法用 30 个字符给汉字编码,即 26 个英文字母和 4 个非字母符号 “,./;”,分别代表 23 个汉语拼音首字母、5 种单笔画、25 种双笔画和 10 个设定部首,共 63 个编码要素。26 个英文字母中除了 I、U、V 三个,其余的 23 个都可以成为汉语拼音的首字母。5 种单笔画为横(一)、竖(丨)、撇(丿)、点(丶)、折(┐)五种基本笔画。25 种双笔画是横、竖、撇、点、折五种单笔画两两组合而成的 25 种笔对。10 个偏旁部首是为了提高输入速度、减少重码而设置的使用频率最高的偏旁部首,包括 “钅、木、氵、土、艹、日(曰)、月、人(亻)、口、扌”。 打字时遇设定部首不能拆分,直接按其代码键。

二笔输入法 30 个编码在通用键盘上分布于六个区:五个双笔画区和一个单笔画区。区内再根据双笔画的第二笔或根据单笔画,按横、竖、撇、点、折的顺序定位。但 10 个设定偏旁部首的键位需要记忆。

二笔输入法将汉字按字形结构分为独体字和合体字。输入汉字时,第一码取汉字拼音首字母,从第二码起取笔画,最多取四码,不足四码应全取,不能取双笔画时就取单笔画。独体字不必拆分;第一码取拼音首字母,第二码起按笔顺取笔画的代码,最多取四码。合体字应拆分成两半,按汉字笔顺规则,先写的部分定为前半,后写部分为后半;第一码取取拼音首字母,第二码取前半的第一、二笔,第三码取后半的第一、二笔,第四码取后半的第三、四笔。

二笔输入法词组的编码规则为:二字词取每个字的前二码,三字词取第一字的前二码和最后两个字的第一码,四字及四字以上词取前三字和最后一字的第一码。

使用二笔输入法时,遇到会写不会读的字可以用 “;+ 字的全形” 来输入。遇到会读不会写的字可以用 “;+ 全拼码” 来输入。

二笔输入法的优点是:编码规则比双笔码更加简单,使用的编码字符也仅有 30 个;通过使用声母和笔画两种汉字特征信息编码,区分同码字词的能力得到了增强,取得了较高的输入效率;对于不认识的字还可以按全形方式输入;如果不按笔对而按单笔画输入,也可以非常容易地向数字键盘移植。但是二笔输入法也还存在问题:由于使用了笔对、设定部首并需区分独体字和合体字进行不同的编码,因而学习难度和使用难度仍然较大。

3.5 数字键盘编码输入法

迄今为止,全国手机拥有量已超过 3 亿。估计有 15 亿人用手机短信息通信。手机短信息的产值将超过 50 亿人民币。手机拥有量超过 PC 机用户,手机数字键输入汉字的人群远远超过通用大键盘输入汉字的人群。

目前,美国特捷公司的 T9 拼音和 T9 笔画输入法、加拿大字源公司的字能笔画输入法和 Motorola 公司的 iTap 输入法垄断了中国大陆和港台的手机输入法市场。仅中国大陆每年手机的产量,含 GSM、CDMA、小灵通,据不完全统计约在 1 亿部以上。如果每台输入法的 LICENSE 费用按 2 元计算,加上价格不菲的使用许可费用,也就是说,手机厂商每年需向手机输入法厂商支付上数亿元的费用。这就给国产手机输入法占领市场提供了一种必要性和紧迫性。

同时,国外的手机数字键盘输入法也很不尽人意。以笔画输入为例,iTap 用 9 个笔画,字能用 8 个笔画,T9 用 5 个笔画。相同的一个笔画不同的手机可以放在不同的位置上,输入速度也不理想。

为了打破外国手机输入法垄断中国手机市场和手机输入法不规范的尴尬局面。由中国中文信息学会、中国新闻技术工作者联合会、中国计算机学会中文信息技术专委会主办,由黄金码出版社 (香港) 有限公司、北京汉王科技公司协办,中国中文信息学会汉字编码专委会、中国广播网等单位承办,于 2004 年 11 月 21 日,在人民大会堂举行了为期三天的中国首届手机中文输入大赛暨汉字数字码输入技术应用高峰论坛。在 32 支参赛队伍中,有 23 支参加模拟手机汉字数字码输入比赛,9 支参加手机中文输入比赛。

在手机中文输入比赛中,香港黄金码出版社(香港)有限公司代表队以黄金码输入平台手机码输入法和黄金码输入获得冠亚军,北京必胜电脑有限公司代表队以笔顺码输入法获得第三名;计算机模拟手机汉字数字码输入比赛则由浙江象山县科协罗康宁代表队的 “大众数字码输入法” 夺魁,来自南京的 “纵横数字数码双拼输入法” 获得亚军,必胜电脑公司的 “笔顺码输入法” 再次获得第三名;经过专家评委的严格评估,汉字数字码输入方案质量定性评估和输入速度综合优秀名次奖中,大众数字码输入法再次夺冠,来自广东国笔科技公司的 “国笔数码智能文字输入系统” 和来自广州至微数码科技公司的 “两笔数码汉字输入法” 分获第二名和第三名。

除了已参赛的数字编码方案外,比较引人注意的还有王永民先生的五笔数码 [52]、郑岩松先生的左右数码 [53] 等。以下仅对当前使用得最为广泛的 T9 拼音、T9 笔画和首届手机中文输入大赛中获得冠军的黄金码、大众数字码进行介绍。

T9 拼音和 T9 笔画合称为 T9 智能中文输入法,字库容量九千多个,是由成立于 1995 年的美国特捷通讯 (Tegic Communications) 软件公司研制的。该公司总部设在美国西雅图,1999 年 12 月被美国在线 (AOL) 收购后成为其全资子公司,专门致力于开发用于小型电子设备的产品和技术。T9 输入法就是它的核心产品,该输入法解决了小型掌上设备的包括中文在内的文字输入问题,已经成为全球手机文字输入的标准之一。

T9 拼音本质上采用的是一种全拼单字加联想的早期通用键盘输入技术。其最重要的创新是可以根据手机键盘上按键的组合情况判断是否能组合成合法的普通话音节,从而避免了传统上通过多次按键来输入一个拼音字母的弊端。但是,当按键组合适合多个合法的普通话音节,而且默认选择的普通话音节又不是用户所需要的时,用户还是得进行手动选择。另外,全拼的拼式过长、需要按 1 键进入选择状态和联想造成的过度人机交互都使得 T9 拼音的输入效率很低,而且全拼对普通话不好的人难度很大。

T9 笔画采用目前多数输入法对笔画的归类方法将汉字笔画归为横、竖、撇、点、折五类,分别用 1、2、3、4、5 表示。录汉字时,按笔顺进行输入,逐键提示,每屏数个,高频优先,最长可输入 12 划,并支持联想。由于分别使用五个键表示五种笔画,因此不需要像 T9 拼音一样对组合情况进行智能判断,内部处理逻辑很简单。然而,因为 T9 笔画充分利用了丰富的笔画信息和不等长码的短码位,并可以直接键选重码字,所以它的实际输入效率比 T9 拼音还高,只可惜很多用户还不知道这一点。使用笔画输入存在的问题是,有个别的字的笔顺不易掌握。好在国家已有成熟的笔顺标准可以作为输入这类字时的依据。

大众数字码用 10 个数字对字词进行编码。除了用 1、2、3、4、5 分别表示横、竖、撇、点、折五种笔画外,还用 6、7、8、9、0 分别表示交、插、八、小、口五类部件 [54]。单字按笔顺取第一、二、三、四、末五个代码、不足时按实际码长。对于可按左右、上下或内外分成首部和尾部二部分的汉字,取码规则还可以变更为 “首 2 尾 3” 或 “首 2 尾 2”。词组的码长均为 6 位。这样,单字和词组可以各字拥有独立的编码空间。单字输入时需要用非数字键作为结束键,词组输入时不需要专门的结束键。大众数字码使用了相当多的笔画组合作为部件,但由于归类清晰,记忆起来比很多同类的输入法要容易些,加上精心的编码规则降低了重码率,使得它在比赛中脱颖而出。不过,应当看到它使用的部件相当多,编码规则也并不简单,学习难度还是相当大的。同时,除了汉字特征信息的选取和字词编码规则外,它在其它方面还没有什么引人注目的独特之处。

黄金码用 9 个数字对字词进行编码。除了用 1、2、3、4、5 分别表示横、竖、撇、点、折五种笔画外,还用 6、7、8、9 分别表示 “口”、“十”、“八”、“亠” 四类部件。编码时分字首和字尾,也区分独体字与合体字的不同。在提示行不为空时,0、* 和 #用做选择键。黄金码最大的特色是,在输入时若用于编码的数字与已输入的编码一起不能构成另外的字词编码时,该数字键就可以用于选择同码字词,这样就大大地增加的输入法的键选能力,缩短的动态平均码长;结合高频先见的不等长码的使用,在输入时基本上不用翻页,进一步提高了输入效率。不过,字首与字尾的区分没有标准可循,常常因人而异;动态地使用剩余编码键选择重码字词也造成选择键位置变化太大,加重了人机交互的负担。

你可能感兴趣的:(汉字编码输入法综述(三))