非特定人脱机手写汉字识别

 陈友斌 丁晓青 吴佑寿

 一、汉字识别概述

  汉字已有数千年的历史,也是世界上使用人数最多的文字,对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋,并将继续发挥重要的、其它文字形式难以取代的作用。然而,汉字是非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。围绕这一问题,人们提出了各种解决方案。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种。人工键盘输入是指用手工击键方式按照一定的规律把汉字输入到计算机,目前已有数百种键入方案。但是,与拼音文字的打字机不同,人们需要经过一定时间的学习训练才能掌握某种键入方法,更为严重的是:对于大量已有的文档资料,采用人工键入方法将要花费大量的人力和时间。为此,机器自动识别输入就成为了必须研究的课题。

  自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支,也是文字识别领域最为困难的问题,它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域,都有着重要的实用价值和理论意义。

  汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机(on-line)手写汉字识别和脱机(off-line)手写汉字识别,如图1所示:

  从识别的角度来看,多体印刷体汉字识别难于单体印刷体汉字识别,手写体识别难于印刷体识别,而脱机手写识别又难于联机手写体识别。可喜的是,经过科研人员的努力,我国已有印刷体汉字识别和联机手写汉字识别的商品出售,目前已形成百家争鸣、百花齐放的局面,但是脱机手写汉字识别还处于实验室研究阶段。在脱机手写汉字识别领域,非特定人脱机手写汉字识别又难于特定人手写汉字识别。



  二、手写汉字识别中存在的问题及困难

  手写汉字识别是一种重要的、适用于把手书文稿随时输入计算机的方法,也是机器字符识别最为困难的一个课题,这些困难和问题表现在:

  (1)汉字类别多。仅《康熙字典》中就包含了49000多个汉字,而常用的汉字就有4000多个,因而汉字识别问题属于大类别(或者称为超多类)模式识别问题,在模式识别理论和方法研究方面有重大意义。

  (2)汉字字形结构复杂。

  (3)汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画,由于手写变形的存在,使得手写体中相似字的区分比印刷体要困难得多。

  (4)因不同人书写风格的差异造成手写汉字的变形很大,具体表现在以下几个方面:

  ●基本笔画变化。横不平,竖不直,直笔变弯,折笔的拐角变成圆弧等。

  ●笔画模糊,不规范,该连的不连,不该连的却相连。

  ●笔画与笔画之间、部件与部件之间的位置发生变化。

  ●笔画的倾斜角、笔画的长短、部件的大小发生变化。

  ●对于脱机手写汉字,不同人使用不同的书写笔可能造成笔画的粗细变化。

  其中,手写汉字字形的变化是最难以解决的问题。

  一般认为,联机手写汉字识别较脱机手写汉字识别相对容易些。联机手写汉字识别是一种人工实时地把汉字输入计算机的方法,它利用书写板把笔画变为一维电信号,输入计算机的是以坐标点序列表示的笔尖移动轨迹,因而被处理的是一维的线条(笔画)串,这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息,而脱机手写汉字识别处理的仅是二维的汉字点阵图象,是汉字识别领域中最后一个十分困难的问题,目前仍然处于实验室研究阶段。

  由此可见,对非特定人脱机手写汉字识别而言,如果对手写汉字的书写不加任何限制,则识别难度相当大。科学研究中人们总是遵循从易到难的规律,从简单的问题入手来寻求突破口。由于自由手写汉字识别太难,人们提出了手写印刷体汉字识别,这已成为目前脱机手写汉字识别的主要研究对象。所谓手写印刷体是指书写工整的楷书手写体,要求书写者工整书写,尽量少连笔。



  三、脱机手写汉字识别方法简介

  自从ibm公司的casey和nagy于1966年首次发表关于汉字识别的文章以来,汉字识别取得了很大的进展,提出了很多理论和方法。对于脱机手写汉字识别而言,其识别过程通常如图2所示:

  通常,原始文稿通过光电扫描仪等输入设备转换成原始的二维图象信号,可以是灰度图象(grayscaleimage)或二值图象(binaryimage)。行字切分是将整页版面的原始图象先按书写行分割开,然后再从每行中切分出单个汉字图象。预处理通常包括大小归一化、平滑、细化或轮廓化等处理过程。特征抽取与分类器的设计是整个系统中最为重要的环节,稳定特征的抽取与良好性能的分类器的设计是整个识别系统的核心,它们直接决定了识别系统的性能。文本识别后处理是指对单字识别的结果,利用词义、语义等上下文先验信息进行识别结果的确认或纠错。

  汉字的模式表达形式和相应的字典形成方法有多种,每种形式又可以选择不同的特征或基元(primitive),每种特征或基元又有不同的抽取方法,这就使得判别方法和准则以及所用的数学工具不同,形成了种类繁多、形式各别的汉字识别方法。总的来说,不同的特征抽取和分类器的设计方法决定了识别系统采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法等。

  1、结构模式识别方法

  结构模式识别方法是人们最初用来进行手写汉字识别研究的方法,一般需要先抽取笔段或基本笔画作为基元,由这些基元再构成部件(子模式),由部件的组合来描述汉字(模式),最后再利用形式语言及自动机理论进行文法推断,即识别。然而,人们美好的初衷并未能如愿以偿,这是因为从汉字图象中抽取笔画等基元比较困难。通常,为了抽取笔画需要将原始点阵图象进行细化处理,但是细化算法不仅速度慢,而且容易产生伪笔画段,如将一个四叉点变成了二个三叉点,给准确抽取基元造成了困难。为了解决这个问题,有些学者试图不经过细化直接从汉字点阵图象中抽取笔画等基元,但效果仍不尽如人意。因此,有些研究人员放弃了抽取笔画或笔段作为基元然后进行文法推断的思路,采用汉字轮廓结构信息作为特征,这一方案的识别结果优于基于基元抽取的方法,但识别方法需要进行松弛迭代匹配,耗时严重,而且对于笔画较模糊的汉字图象,抽取内轮廓会遇到极大困难,外轮廓的抽取也不太稳定。也有些学者采用抽取汉字图象中关键特征点来描述汉字,汉字的关键特征点包括端点、折点、交点、歧点、背景特征点、局部曲率最大点等,但是特征点的抽取易受噪声点、笔画的粘连与断裂等影响。

  总之,早期的脱机手写汉字识别研究者将精力主要集中在如何准确地抽取基元、轮廓、特征点等能够反映汉字结构信息的特征上,并且在假设这些特征已经比较准确地抽取完毕的前提下,研究文法匹配、属性图匹配、松弛迭代匹配等。然而,单纯采用结构模式识别方法的脱机手写汉字识别系统,识别率较低,这就促使人们将目光转向了统计模式识别方法。

  2、统计模式识别方法

  与结构法相比,统计法具有良好的抗噪声、抗干扰的性能,其鲁棒性主要体现在统计特征的抽取和模式匹配方法上。

  用于脱机手写汉字识别的统计特征,根据特征抽取区域的不同可粗略地分为全局统计特征和局部统计特征两大类。

  (1)全局统计特征

  全局统计特征是将整个汉字点阵作为研究对象,从整体上抽取特征,主要包括:

  ●全局变换特征:对汉字图象进行各种变换,利用变换系数作为特征,常用的变换有fourier变换、hadamard变换、dct变换、walsh变换、rapid变换、k-l变换等。

  ●不变矩(moment)特征

  ●笔画穿透数目特征

  ●全局笔画方向特征:这种特征反映了在整个汉字点阵中笔画的复杂度、方向及连接关系。

  ●背景特征:汉字图象的空白部分(即背景)和周围笔画的关系也含有一定的结构信息,提取背景点在各个方向的笔画密度作为背景特征,通常可选取位于汉字图象两对角线上的背景点。

  (2)局部统计特征

  局部统计特征是将汉字点阵图象分割成不同区域或网格,在各个小区域内分别抽取统计特征,主要包括:

  ●局部笔画方向特征

  ●细胞特征

  ●相补特征

  ●方向线素特征

  ●gabor特征

  ●四角特征

  根据抽取特征的不同,可以选用不同的匹配方法,常用的统计匹配方法有模板匹配、相关匹配、树分类器等。常用的距离度量有欧氏距离、城市块距离、马氏距离等。

  3、统计与结构相结合的识别方法

  由上述可见,统计与结构方法各有优缺点。统计方法具有良好的鲁棒性,较好的抗干扰抗噪声的能力,它一般按一定的距离度量匹配准则,采用多维特征值累加的办法,把局部噪声和微小畸变淹没在最后的累加和里,但是,可以用来区分“敏感部位”的差异也随之消失,因此区分相似字的能力较差;而结构方法对结构特征较敏感,区分相似字的能力较强,但是结构特征难以抽取,不稳定。因此,人们已注意到将两种方法结合起来使用,这种结合包括两个方面:

  (1)特征的结合:在特征抽取过程中,注意抽取能反映手写汉字结构信息的统计特征,如方向线素特征、四平面笔画穿透数目特征等。

  (2)识别方法的结合:可以先用统计方法进行粗分类,再用结构方法进行细分类来区分相似字,即两种方法的串联;也可以将两种方法并联使用,然后进行综合集成,这是近年来文字识别领域的一个重要研究方向。

  4、人工神经网络方法

  基于串行符号处理的数字电子计算机在人工智能等研究领域遇到了一定的困难,促使人们以更大的兴趣去研究以并行处理模式为特征的神经计算机。八十年代初,在美国、日本和欧洲都掀起了一股研究神经网络理论和神经计算机的热潮,各个先进国家相继投入巨额资金,制订出强化研究计划,并开展了对脑功能和新型智能计算机的研究。人工神经网络的主要特征是:大规模的并行处理和分布式信息存储,良好的自适应性、自组织性,以及很强的学习功能、联想功能和容错功能。目前的研究重点是将人工神经网络原理应用于图象处理、模式识别、语音综合及智能机器人控制等领域。

  人工神经网络方法用于文字识别的研究主要包括以下几个方面:

  ●神经网络用于特征抽取与选择:通常直接将字符点阵信息送入网络进行学习训练,由网络抽取得到的特征不具有明显的物理含义。

  ●神经网络用于学习训练及分类器的设计:这是目前人工神经网络在文字识别领域的主要研究方向,也是最为成功的应用。

  ●神经网络用于单字识别后处理。

  通常,用于文字识别的人工神经网络模型有:hopfield神经网络、前向多层神经网络(如bp算法、rbf网络等)、art网络、自组织特征映射网络、认知器模型等等。目前常用的做法是将神经网络方法和传统的识别方法结合起来使用,互相取长补短,如先用传统的方法抽取较为稳定的特征,然后再用神经网络进行自组织聚类学习并设计性能良好的分类器等。人们正以期盼的目光注视着人脑功能的揭示和神经网络的进一步发展。

  

  

  四、当前的研究热点

  1.预处理技术

  手写汉字变形问题是非特定人脱机手写汉字识别中的关键问题,所谓脱机手写汉字识别的预处理,就是探讨直接从汉字点阵图象上补偿手写变形、减小属于同一类别的不同模式之间的差异的理论和方法。通常,直接从汉字点阵图象上消除手写变形的方法有两种,即非线性规一化方法和变换函数法。

  非线性规一化是预处理方法的主流和核心,其目的主要是将不同大小的汉字点阵规一化成相同大小并直接在汉字点阵图象上矫正手写变形,常用的非线性规一化方法有:基于点密度均衡的非线性规一化、基于笔画穿透数目均衡的非线性规一化、基于笔画间隔均衡的非线性规一化、基于线密度均衡的非线性规一化、基于汉字点阵二维平面矫形的非线性规一化等,各种非线性规一化方法的主要区别在于如何刻画汉字笔画的疏密程度的不同,使得规一化后的汉字点阵中笔画分布尽量均匀。

  变换函数法是近年来图象识别及文字识别的一个研究方向,常用的变换函数法有基于几何模型的变换函数法、余弦整形变换函数法、基于笔画倾斜角度的变换函数法等。三种方法各有优缺点,能解决的不同类型的手写变形。但是,目前的变换函数法的自适应能力不强,如何根据不同的手写变形自适应地采用不同的变换函数和不同的处理方法可能是变换函数法今后的研究方向。

  2.特征抽取与分析

  特征抽取是模式识别的一个重要环节,抽取稳定且有效的特征是识别系统成功的关键。一般认为,汉字笔画及其相对位置关系是手写汉字中最为稳定的特征,然而,直接从汉字点阵图象上准确地抽取汉字的每一个笔画并找出其相对位置关系则十分困难,早期利用结构模式识别方法来识别手写汉字的研究人员所遇到的问题和困难证实了这一点。统计特征具有良好的抗噪声、抗笔画的粘连与断裂等特性,但是,方块汉字具有二维结构,单纯利用统计特征还不能很好的反映出汉字的结构信息,所以,一种有效的手写汉字特征应该将汉字的统计特性与结构信息结合起来,将汉字笔画的特性与汉字背景空白处的特性结合起来,如目前在手写汉字识别中最为有效的方向线素特征、四平面笔画穿透数目特征、细胞特征等。

  如果一个汉字的特征能够使得该汉字类别与其它汉字类别区分开来,则该汉字的特征具有足以描述该汉字的信息,然而,从上述这些特征中还不能恢复出原始汉字点阵,这些特征还不足以描述汉字,因此,寻找与之互补的其它特征是今后的研究课题之一。

  3.识别字典的生成与分类器的设计

  在手写汉字识别中,由于不同人书写风格的差异造成的手写变形很大,使得属于同一汉字类别的不同样本之间的差异较大,产生一个具有代表性的识别字典是补偿手写变形、提高手写汉字识别率的有效途径,通常,识别字典可以分成单模板字典和多模板字典两大类,前者指每个类别仅有一个参考模板(也可称为代表元)存放在识别字典中,而后者指每类有一个或一个以上的参考模板。显然,由于手写变形的存在,单模板字典显得不足,因此有必要生成多模板字典,问题的关键在于如何生成多模板字典,即如何进行类内聚类以及如何确定代表元,而且,在学习训练过程中,如何选定学习样本的数量和质量也是一个值得研究的课题。

  补偿手写变形的另一个有效途径是采用合适的匹配策略。在分类匹配方法中,采用不同的距离度量会产生不同的识别结果。由于手写变形的存在,使得在高维特征空间中各个汉字类别的各维特征的方差不尽相同,有的甚至差别很大,因此,在进行分类匹配时,应该考虑各维特征的方差信息。

  4.多方案集成

  多方案集成是近年来文字识别领域的一个主要研究方向,任何一种特征、任何一种识别方法都有其优点和局限性,借鉴印刷体汉字识别的成功经验,走多特征组合、多方案集成的道路,也许是脱机手写汉字识别系统走向实用化的有效途径。常用的分类器集成方法有投票法、概率法、dempster-shafer法、行为知识空间法、综合集成法、基于置信度的神经网络集成法等。

  5.单子识别后处理

  通常,在识别实际文本时,需要对单字识别的结果进行基于上下文关系的识别后处理。利用后处理技术,应该能够实现对单字识别结果的确认或纠错,并进一步区分相似字。如首先采用基于语料库的统计方法得到一个二元字字同现概率矩阵,然后采用markov模型,以句子为处理单元,用viterbi动态规划方法对单字识别后的文本进行自动后处理。

你可能感兴趣的:(图像处理与识别)