汉字编码输入法综述(四)

3.6 通用输入法平台

发明和设计汉字编码的人很多,而真正能够编写汉字输入法软件的是很少的,因此一个功能强大的通用汉字输入法平台会对汉字编码的研究、试验和制作产生巨大的促进作用。通用输入法平台来源于对各种输入法的共性抽象,反过来又对输入法的制作有不可忽视的限制。

早在 DOS 时代就有人从事通用输入法平台的研究了 [57]。但是,输入法平台的广泛使用还是在 Windows 操作系统普及以后的事。

微软公司和北京中易电子公司合作开发的码表输入法生成器(Imegen.exe)是 WINDOWS 操作系统上最早的也是使用得最广泛的输入法平台。汉字编码人员只需要提供一张按规定格式制作的码表,并对输入法的名称、最大码长、使用的码元集和构词规则等进行描述,就可以生成自己的输入法了。以最近的 Windows 2000 内置的码表输入法生成器为例,向它提供的码表需要满足的条件是:码元集合是键盘可键入键的子集;输入法能够定制的最大编码长度的限度为 12;信息元为单符或多符代码的形码或音码。这里所说的键盘可键入键共 47 键,包括 26 个字母键、上排 10 个数字键和 “,./;’[]-=`” 这 11 个符号键,但不包括小键盘上的数字键。码表输入法生成器所生成的输入法存在着很多缺陷,已经难以满足许多现代汉字编码输入法制作的需要。首先,它硬性规定重码字词的选择只能使用 10 个数字键按顺序选择,翻页键只能使用 “+” 和 “-”,同时空格键也可以选择第一重码字词;这样就限制了一些优秀的输入法希望采用更易于操作的键作为翻页键和重码字词的选择键的自由,也使得采用了 10 数字键作为编码键的输入法在选择重码字词时不得不用更加难以操作的复合键(Shift + 数字键)。其次,它的词组管理功能非常弱,在线造词时只能增加词组而不能删除和修改词组,造词过程中出现输入错误时只能放弃已造好的部分而不能修改继续。另外,输入状态的切换不方便,对码表容量的限制,没有提供输入法的可控性发布和安装手段等都妨碍了它的进一步广泛使用。

杜志民先生开发的极点中文通用输入平台是目前影响最大的输入法生成器,与 Windows 内置的输入法生成器相比输入功能上有了长足的进步,但是没有考虑与应用程序的接口问题。该软件于 2001 年 9 月 10 日最初发布时名称叫 “五笔拼音 1.0”。由于可以在互联网上免费下载和使用该软件,还由于有一批热心的五笔爱好者支持和参与,更由于杜先生一直坚持不断更新和加强软件的功能并维持免费软件的局面,该软件便得以迅速地流行起来。2003 年 3 月 31 日在发布 3.1 版时,该软件正式更名为 “极点中文通用输入平台”,以反映杜先生将该软件作为输入法生成器而不单纯是五笔拼音输入法的初衷。现就 2004 年 8 月 26 日最新发布的 4.0 版作一介绍。与传统输入法生成器相比它的优点是:可以使用小键盘数字;对于纯数字输入法也采用 3 重码选择方式(即用空格选第 1 重码,左 Shift 选第 2 重码,右 Shift 选第 3 重码);提供了灵活多变的、漂亮别致的用户界面风格供用户选择;可以使用 Shift 或 Ctrl 键进行中英文状态键的单键切换;支持自动或手动地调整重码字词的顺序;支持不等长码在编码对应的字词唯一时自动上屏;支持自动造词;可以将生成的输入法打包成安装软件;提高大量的设置选项供熟练用户对输入法进行调整和避免与操作系统或应用软件间的冲突。

在功能上与极点中文通用输入平台类似软件还有龙文输入平台和青月亮平台。它们也都是基于 Windows 操作系统的,但不是免费软件而是商业软件,流行得不是很广。

总之,虽然通用输入法平台取得了不小的进展,已能适应制作常规的基于字词的输入法的需要了,但是对于语句级输入法和许多有特殊要求的字词型输入法还是必须专门编程才能取得最好的效果。毕竟,搞输入法的人是极少数,而仅仅使用输入法的人才是绝大多数,因此包括编码层次和软件层次在内的汉字输入法的总体性能才是最为重要的。

通用输入法平台是在软件层面使用输入法的制作自动化。但是,一个输入法制作在编码层面也有大量的工作要做,如何利用计算机来辅助汉字编码也引起了一些研究者的兴趣,这方面的研究情况请参阅文献 [58]-[63]。

4 面临的形势与存在的问题

虽然在汉字编码输入方面已经取得了不少进展,汉字能否输入计算机的问题已经解决,但是汉字编码输入理论一直是一个薄弱环节,迄今为止仅有的一本理论性较强的汉字键盘输入专著 [5] 并没有引起输入法实践者足够的重视。由于没有科学而系统的输入法理论指导,在汉字编码输入法研制时往往片面地强调某一方面、某一个指标,从而出现了很多误区,再加上商业运作上的夸大其词,就产生了诸如低重码率神话、速度神话、大词库神话、编码决定论、程序决定论、形码优越论、音码优越论之类的奇特论调 [70][71]。

同时,在实用性方面,人们对汉字编码输入的现状仍然十分不满意,新的汉字编码输入法还在不断地涌现,以期克服现有输入法存在的诸多问题。不同时代问题,有着不同的背景,从而决定了问题的性质和解决问题的不同方法。汉字编码输入技术问题的性质和解决思路主要取决于人、机、文、码四个方面的因素,以下结合当前的背景进行论述。

在人方面,计算机的普及造就了巨大的用户群体,而且非职业字员用户占绝大多数,其中还包括了大量的中小学生,中国已进入了非专业打字时代 [72]。非职业打字员一般都没有经过专业的打字培训,知识背景也大不相同。因此,如何使输入法易学易用和保持一定的速度是问题的关键。最好是,输入法在入门时基本上不用学习,熟悉后又有提升速度的手段,甚至达到或超过传统职业打字员的速度。但是当前的输入法往往是易学易用的输不快,如五笔字型,而输得快的难学难用,如智能 ABC。非职业打字员的另一特征是根据腹稿录入,即边思考边看着屏幕打字。因此,如何利用好用户看屏输入这一点来进行反馈设计是极为重要的,它直接影响着输入法的质量。但是,目前的输入法对反馈设计没有引起足够的重视,有的过于强调盲打而丧失了易学易用性,有的又过于依赖人机交互而丧失了易用性和输入速度。另外,因为现在大多数用户都独自拥有计算机,所以输入法一般为某个用户专用,可以针对特定用户建立个性化的字词编码库,以提高用户的输入效率。但是,现在的输入法往往只有一个通用编码库,随着编码字词条目的增加就会出现大量的重码,无用词的比例也增大,进而影响输入法的性能。最后,在中小学进行打字教育时,汉字编码的规范化问题和汉字编码与语文教育的结合问题变得十分重要。在这一点上,目前很多流行的输入法都是不合格的。很多人批评五笔字型对汉字不合规范地乱拆分会导致语文教学和写字的混乱,五笔字型也因此未能进入中小学教育 [25][26]。即使是教育部推荐的认知码也有许多人对其规范性提出异议 [20][21]。

在机方面,计算机处理能力已相当强大,手机、PDA 等手持智能设备已广泛使用,数据库技术已非常成熟。当今微型计算机强大处理能力对于个人用户来说有很多富余,使得我们可以增大程序的时间和空间复杂度来提高输入法的性能。手持智能设备的流行要求输入法在通用键盘和数字键盘上的操作方式尽量统一,以减少用户的学习和使用负担。大型的数据库,如 SQL SERVER, 在微机上的运行速度完全可以满足输入法检索字词的要求,所以我们可以采用数据库来存储海量字词及其属性,甚至扩展输入法的功能到学习、查询和辅助翻译等领域。目前,除了语句型输入法充分地利用的富余的计算机资源外,其他的字词型输入法在资源利用上还停留的第二代输入法的水平上;数字键盘输入法一般自成体系,与通用键盘输入法缺乏衔接;数据库技术没有在输入法里得到应有的应用。

在文方面,对于非职业打字员而言,输入文本以常用字构成的连续真实文本占绝大多数,而且对某个用户来说文本一般局限于特定的领域。因此,这类文本的冗余度比汉字文本整体的冗余度要高,可以动态地调整码长,给常用字词以短的编码,实时地、自动地创建新词组,从而充分地压缩冗余度,提高输入速度。对于离散文本和罕见字的处理,输入速度不是关键,关键是要有简单的手段实现输入。目前的输入法往往对输入文本的性质不加区别地对待,结果使得输入法的整体效率收到了影响。

在码方面,目前流行的各类编码都存在各自的问题。字词型输入模式僵化,缺乏创新。空格键作为简码字词的结束键减低了编码效率;看打方式的设计被错误地用到了想打方式上,强调盲打而忽视了反馈信息的作用;对码长的过度限制(通常为 4)导致重率上升,限制重码又使可使用的词组量受限,不限制重码也会增加人机交互而影响输入速度;未能充分地利用汉字丰富的笔画信息。语句型输入模式不太适合中文,其转换正确率不高,效率不高,编码识读性差。

1) 音字转换短语或语句输入。与普及语句输入的日本不同,汉语拼音还不是文字,识读性差,输入时反馈信息需要依赖于及时的转换结果,否则不易判断输入错误,输入的编码越长越能提供更多的语境但击键出错的概率也越大,因此转换的正确率是有极限的;而日语假名是文字的一部分,容易识读。中文的汉字常用汉字使用量比日语大得多,而且没有日语一样的假名和丰富的助词帮助,转换的正确率有限。汉语拼音直接作为编码,其本身的冗余度太大,输入效率很低;而采用双拼音又会增加学习负担。中国方言区人口众多,他们的普通话不太准,使用全拼难度仍然很大。用于手持设备时,资源消耗太大,而且没有足够大的显示空间和操作按键。离散文本的输入(包括本文错误的修改)不方便。

2) 各种五笔字型输入法。学习难度太大,仅适合已会五笔的人。对中小学生还存在规范性问题。向手持设备的移植也存在同样的问题,而且其输入效率也并不高。

3) 各种二笔输入法。虽然普及程度不如五笔,但易学性提高较大,而且速度与五笔相当。向手持设备的移植也容易一些。但是,由于使用了笔对,并需要区分字型和使用一些部件,其易学性和易用性还是不令人满意的。

5 参考文献

倪海曙。注音识字简史。语文现代化 [J]. 1983. (6). 130

胡瑞昌。文字改革与语言文字工作答客问(上)[J]. 语文与信息. 1995. (5). 13-14

汉语拼音与输入法论坛. http://sh.netsh.com/bbs/1951/

周强。计算机科学 [J]. 1995. (4). 36-40

陈一凡,胡宣华。汉字键盘输入技术与理论基础 [M]. 清华大学出版社,广西科学技术出版社. 1994.6.

《微机办公自动化丛书》编委会。中国微机办公自动化软件大全 [M]. 北京经济学院出版社. 1993.7.

Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition [M]. 清华大学出版社,Prentice Hall. 1999.9.

北京语言学院语言教学研究所。现代汉语频率词典 [M]. 北京语言学院出版社. 1986.6.

俞士汶,朱学锋,郭锐。现代汉语语法电子词典的概要与设计 [J]. Proceedings Of ICCIP92. 1992.

李公宜,李海飚。论汉字编码的最短极限码长 [J]. 中文信息. 1992.(1).

冯志伟。再谈汉字的熵值 [J]. 语文与信息. 1996.(2).

王晓龙,王轩. N 元汉字字词编码输入的最短码长和速度上限 [J]. 中文信息学报. 1993. 7 (4).

Robert Kruse, C.L. Tondo, Bruce Leung. Data Structures & Program Design in C[M]. 2nd Edition. Prentice Hall, Inc. 1997.

张侃,陈一凡。汉字键盘输入的认知模型 [J]. 中文信息学报. 1991.5 (4).

何克杭。汉字认知模型与形码方案设计 [J]. 中文信息学报. 1994.9 (3).

周冰洋,刘植婷,姚世全。常用汉字编码字典 [M]. 宇航出版社. 1990.9.

王力德。汉字编码的普及目标体系与编码实例 [J]. 中文信息学报. 1993.8 (4).

刘爱莲。什么样的输入法才能为大众接受 [J]. 语文与信息. 1995.(6).

卫至上。电脑如何普及:教委走错了方向![J]. 语文与信息. 1995.(3).

周宪. “认知码” 规范性探讨 [J]. 语文与信息. 1995.(5).

宁基。从 “认知码” 谈推荐什么样的汉字编码 [J]. 语文与信息. 1995.(6).

王相东. “万码奔腾” 可以休矣 [J]. 语文与信息. 1995.(4).

潘骑,潘德孚。编码的 “速度误区”[J]. 语文与信息. 1996.(2).

潘德孚。汉字编码与识字教育 [J]. 中文信息. 1997.(1).

张孝存,王梅。从 “邱氏鼠药案” 想到 “五笔字型” 编码 [J]. 语文与信息. 1995.(4).

张在云。谈谈’98 规范王码的得失 [J]. 安徽广播电视大学学报,2001, (2).

华绍和,肖金卯,蒋顺炳。适应中小学教学用的汉字编码的特点 [A]. 中国中文信息学会汉字编码专业委员会第八届年会、中国计算机学会中文信息技术专业委员会第六届年会暨汉字输入技术与应用研讨会文集 [C]. 2002.

吴越。电脑打字普及教材 [M]. 北京群言出版社. 1993.5.

单波。论汉字编码的分代与第三代汉字编码 [J]. 中文信息. 1989.(2).

金山电脑有限公司. WPS 桌面印刷系统用户大全 [M]. 1991.6. 17-23.

周山芙。自然码实用教程 [M]. 清华大学出版社. 1994.12.

章森,宗成庆,孙建军。新一代中文输入系统面临的问题 [J]. 中文信息. 1997.(1).

赵以宝,孙圣和。一种基于单字统计二元文法的自组词音字转换算法 [J]. 电子学报. 1998. 26 (10).

刘来旸,瞿有利,樊孝忠。汉语智能输入系统的设计 [J]. 北京理工大学学报. 2001. 21 (3).

陈正,李开复。拼写纠正在拼音输入法中的应用 [J]. 计算机学报. 2001. 24 (7).

仲兴国。多词组一次性拼音・汉字变换 [J]. 中文信息学报. 1990.4 (2).

王晓龙,王开铸,白小华。自然语言理解中的音字流自动分词 [J]. 中文信息学报. 1990.5 (3).

万建成。拼音 – 汉字转换输入中的结构识别方法 [J]. 中文信息学报. 1991.6 (1).

万建成。可分隔动词及其在拼音 – 汉字输入中同音词识别的应用 [J]. 中文信息学报. 1991.6 (4).

万建成。语音代码 – 汉字智能转换研究 [J]. 中文信息学报. 1993.8 (2).

章森,宗成庆,陈肇雄,黄河燕。语句拼音 – 汉字转换的智能处理机制分析 [J]. 中文信息学报. 1997.12 (2).

郭进。统计语言模型及汉语音字转换的一些新结果 [J]. 中文信息学报. 1992.7 (1).

徐进霈,高枚。汉语文本读入中音字转换的知识集成模型和时间同步搜索算法 [J]. 中文信息学报. 1993.8 (1).

高升,王晓龙。语句级汉字输入系统中语义规则研究 [J]. 计算机工程与应用. 2003.

王锡龙,黄希琛,邹志刚。汉字输入中的重码自动区分理论 [J]. 中文信息学报. 1990.4 (1).

吕强,钱德培。基于词组的智能化汉字输入系统 CIIIS/2 的设计 [J]. 中文信息学报. 1991.6 (1).

赵雷,吕强,杨季文,朱巧明。汉字输入法类的设计与实现 [J]. 中文信息学报. 1995.10 (4).

陈一凡,朱亮。汉字键盘输入智能处理软件综述 [J]. 中文信息学报. 2002.17 (2).

刘长松,伍振军,乔春雷,李元祥。用统计方法实现汉字输入的智能联想 [J]. 中文信息学报. 1999.14 (1).

Zheng Chen, and Kai-Fu Lee. A new statistical approach to Chinese pinyin input[A]. ACL-2000[C]. Hong Kong. 2000.10.

Jianfeng Gao, Hai-Feng Wang, Mingjing Li, and Kai-Fu Lee. A unified approach to statistical language modeling for Chinese[A]. ICASSP2000[C]. Istanbul, Turkey. June 5 - 9, 2000.

王永民。五笔数码形声输入法及其键盘 [P]. 中国. G06F3/023. 00124781.6. 2000-9-14.

郑岩松。左右数码汉字电脑输入法及其键盘 [P]. 中国. G06F3/023. 02102272. 2002-2-1.

罗康宁。一种数码汉字输入法及其键盘 [P]. 中国. G06F3/023. 03129316.6. 2003-12-10.

肖水清。汉字输入一日通 [M]. 北京经济学院出版社. 1993.1.

萧启宏。全汉字编码输入系统启宏全息码 [M]. 电子工业出版社. 1993.3.

孟凯,万国银,许惠山。汉字输入支持系统的设计特点 [J]. 中文信息. 1992.(1).

张玉华,周克兰。输入法码本前期处理工具的实现 [J]. 微机发展. 2003.13 (4).

舒展羽,胡勇新。汉字编码辅助设计环境 HCCAD [J]. 中文信息. 1992.(2).

陈玉龙。中文自动编码原理 [J]. 中文信息学报. 1997.12 (1).

钱德培,杨季文,吕强,朱巧明。一个基于 C/S 模式的汉字词属性分析和重组系统的设计 [J]. 中文信息学报. 1998.13 (1).

陆剑江,钱培德。汉字输入法码本自动更正设计研究 [J]. 中文信息学报. 2001.16 (6).

吴娴,吕相,杨涛,杨季文,钱德培。论汉字码本数据库管理技术 [J]. 中文信息学报. 2002.17 (2).

John G. Proakis. Digital Communications [M]. 3. 北京。电子工业出版社. 1998.9.

C. E. Shannon. A Mathematical Theory of Communication[J]. The Bell System Technical Journal. 1984. (27).

Hyman e.Stimulus. Information as a Determinant of Reaction Time[J]. Journal of Experimental Psychology. Vol.45. No.3. 1953.

丘菏生。汉语双拼的标准键盘设计 [J]. 中文信息. 1992.(2).

杨道沅,董小国,董红,陈丹. 《自然码》双拼键盘设计合理的研究 [J]. 中文信息学报. 1992.8 (1).

杨道沅,李棣。汉字输入键盘设计方法的研究 – 兼论标准汉字双拼键盘的设计 [J]. 中文信息学报. 1996.8 (3).

子厚. “全息码” 风波的演变 [J]. 中文信息. 1992.(2).

余克艰。戳穿电脑打字的 “速度神话”[J]. 语文与信息. 1995.(6).

陈和利。专业录入员终究有一天会消失(转载)[J]. 语文与信息. 1995.(4).

戴石麟。文字式音形汉字输入法 [P]. 中国: G06F, ZL 95111380.1, 1995.

陈一凡,张鹿,周志农。键位相关速度当量的研究 [J]. 中文信息学报. 1990.4 (4).

陈一凡,张鹿。键位分布合理指数与动态平均码长综合指标的自动测定 [J]. 中文信息学报. 1991.5 (1).

Microsoft Corp. Microsoft Win32 Multilingual IME Overview for IME Development, Windows DDK[R].

Microsoft Corp. Microsoft Win32 Multilingual IME Application Programming Interface for IME Development, Windows DDK[R].

Thomas Scovel. Psycholinguistics[M]. New York: Oxford University Press. 1998.

John Sinclair. Corpus, Concordance, Collocation[M]. New York: Oxford University Press. 1991.

Douglas, Susan Conrad, Randi Reppen. Corpus Linguistics[M]. Cambridge: Cambridge University Press. 1998.

Jeffrey D.Ullman, Jennifer Widom. A First Course in Database System[M]. Prentice Hall, Inc. 1997.

Ronald J. Norman. Object-Oriented Systems Analysis and Design[M]. Prentice Hall, Inc. 1996.

Bernard Kolman, Robert C. Busby, Sharon Ross. Discrete Mathematical Structure[M]. 3rd Edition. Prentice Hall, Inc. 1996.

Harry R. Lewis, Christos H. Papadimitriou. Elements of the Theory of Computation[M]. 2nd Edition. Prentice Hall, Inc. 1998.

William Ford, William Topp. Data Structures with C++[M]. Prentice Hall, Inc. 1996.

William Stallings. Operating Systems[M]. Prentice Hall, Inc. 1998.

Brian W. Kernighan, Dennis M. Ritche. The C Programming Language[M]. 2nd Edition. Prentice Hall, Inc. 1998.

你可能感兴趣的:(汉字编码输入法综述(四))