摘要:当前80后非主流已经逐渐年老色衰,90后非主流群体茁壮成长,在非主流中带有手写输入功能的手机、触摸屏等产品市场占有率越来越高,因此本文领先 于国际,第一次讨论了非主流最常使用的火星文输入法的手写识别技术。由于火星文输入法本身的晦涩难懂,使得手写火星文识别技术是一门前无古人的技术创新, 是一个全新的交叉学科。该学科汇集了模式识别技术、自动控制理论、计算机技术、数字图像处理技术、传感检测技术、电子通信技术、仿真技术、导航技术、 RFID技术、现场总线技术、GIS理论、环境工程论、给排水技术、垃圾处理技术、除厕技术,数学、物理学、化学、哲学、心理学、生理学、医学、法律学、 文学、情报学、历史学、考古学等众多学科的融合。本文从模式识别的角度入手,深入浅出,分析了火星文的特点及社会危害,并对手写火星文的识别技术做初步的 探讨。
关键字:手写文字输入,模式识别,非主流,火星文
1绪论:
当前网络上到处充斥着非主流们使用很让人反感的火星文宣泄内心的躁动、摧残祖国的文化、展示着自己做为一个人类的悲哀,无不体现了其脑残的深度和广度。 同时在模式识别领域,文字识别技术正以突飞猛进的速度发展,并在现实中的应用越来越广泛。传统的文字识别技术主要研究的难点是手写中文识别,在模板匹配 时,模板的采集都是基于心里正常的非脑残人士手写的传统楷书和行书。而自从我国出现80后第一代非主流以来,90后非主流的队伍逐渐壮大,成为社会危机爆 发的严重的不安因子。为了挽救脑残非主流,拯救下一代,变堵为疏,继续发挥党的先进性作用,全国人民继续以箶婂濤同志为核心的黨妕姎转圈和犯晕,根据市场 经济的作用规律,有必要对非主流使用的火星文输入法的手写识别问题进行深入研究。基于此,本文探讨了火星文的特点和手写火星文识别上的难点,并提出几种识 别技术的解决方案,对于传统的手写文字识别算法做了改进。
本文作者偶然见到QQ好友里有几个朋友用火星文写的QQ签名,第一反映是删了这几人吧,羞与伊为伍,再一想我既然鄙视这些火星文,为什么还能把他们伤感的 脑残的zhuangbility的签名看懂呢?通过笔者对火星文的初步调查认定,95%的正常人,都能看懂90%以上的非主流签名,看火星文没有阅读障 碍。而只有不到3%的正常人能够写出50%以上的火星文,且这些人中80%是80后的退役非主流,医学上称非主流的病为BDS(bread disabled syndrome)即脑残综合症,该病的治愈者叫做脑残大三阳转阴。那么为什么正常人可以在不经过训练的情况下能够自我认识火星文,这就源于中国象形文字 的博大精深。本文第2部分讨论火星文的特点及技术识别的难点,第3部分针对其特点提出了技术实现比较简单的字/词库匹配转换法,第4部分提出了识别率更高 的模糊智能模式推理法。最后,本文极度而大胆的YY了该技术的前景,及带来的巨大的经济价值和社会效益。
2火星文及非主流BDS患者的特点及识别技术的难点
火星文的出现作为人类文明退步的一个重要现象,有其深远的历史意义:火星文的出现使得中华民族的绚烂的文化糟粕中又多了一个强大队员,火星文的出现使得中华民族的国民劣根性又得到一次发展,火星文的出现使得我们实现伟大的珙產炷乂亊鄴的道路更加曲折。
1)非主流在我国的形势
跟据民政部、教育部、工业和信息产业部、国防部、人口和计划生育委员会、国家统计局、中央情报局、妇女和儿童权益保障司、青少年发展基金会,残疾人联合会 2008年联合发表的题为《2008中华人民共和国国民脑残程度调查白皮书》公布的统计数据显示,非主流人员100%得了脑残综合症(BDS),非主流人 员100%使用火星文,因此可以说,非主流=脑残=火星文。我国非主流的发展速度远远超过地球人和火星人的想象程度,并呈现以下特点:非主流人口基数大, 非主流人口增长速度过快,成为非主流平均年龄降低,BDS患者治愈平均年龄增加。挽救非主流已经成为全社会的迫切需要解决的问题。但是各路砖家们一致认 为,对待非主流BDS患者只能变堵为疏,曲线救国,在生活中要善待并帮助非主流走过艰难的治愈期。其中解决非主流使用手写屏问题的“火星文手写输入识别技 术”正式被“863”计划列为“2009全国十大技术创新项目”,并给与资金支持。
2)火星文的字库组成。
火星文的文字中有98.4%是当前计算机正常字库中带有的汉字字形,这些汉字大多是生僻字、异体字、过去使用的变体字、各种写法的繁体字、棒子国去汉化而 改的汉字等,这些文字从发音和字形上来看,与非主流们想要表达的本意的文字非常接近,使得正常人也可以通过联想认识其含义。火星文有1.3%的文字使用的 是变形的拉丁字母,组成汉语拼音代替汉字或者初中一年级水平的、意义相同的英文单词代替。余下的不足1%的文字采用有意义的符号、无意义的符号、乱码、自 创字、及日本动作爱情电影的特效,如马赛克,来表达其内心的喜怒哀乐,并且这些符号除了自己没人能看懂。
例如以下这段话
ωǒ們婔炷瑬蔸湜兲泩啲腦殘,涻浍菂敗類,亽類妏眀蹆歩dě洧劦蓷勭鍺。
3)正常人识别火星文的方式
试看这段火星文
苁婡朩缯想起,怺遠釶bú浍莣汜
靌寶①萣偠對洎己恏呃,乖乖菂烸兲阣粄
嗼裝湢,zhuangbility蹧檑澼
相信大多数人能够读懂整句话,但是如果把每段话中的字单独拿出来,如“苁”,这个字大家怎么理解呢?几乎没人会认为这是“从来”的“从”,但是人们会认为 这音读作cong,还有“兲”字,单独拿出来念什么?脑子里是不是只有个“晕”字。放在整句话中,我们理解了“苁婡”=“从来”,“烸兲”=“每天”,这 正是象形字的魅力所在。人们可以通过联想的形式从偏旁和部首猜到发音而不管其本意,除非你是一个像笔者一样博古通今的砖家,如“莣”实际读wang的二 声,本意是一种草的名字,而人们不认识这个字的就会读成四声“忘”,后面一个“汜”字,识字多的人会读成正确的si(四声),但是由于“莣”的影响,很容 易将两个字联想起来读成“忘记”,因为这个“记”的部首“己”与“汜”的部首“巳”很像,在整句的环境中,人们就承认了“巳”读“已”,进而“汜”读成“ 记”。若是脱离了整句环境这个前提,人们是不可能读出写这段火星文的作者的本意的。
因此,正常人,包括大多数不够专业的非主流,在识别火星文时,大体通过以下方式:根据偏旁部首联想发音->根据上下文理解词义,并分割语素 ->在整句中将每个语素串接起来验证词义理解的正确性。如果一段火星文按着这个方法读了几遍还不能理解句子含义,恐怕是这个文字的确是超前100年 的冥王星文吧。
4)机器识别手写火星文的技术难点
在过去,计算机识别手写火星文是不可想象的事。但是随着近几年智能控制理论的成熟发展和模式识别技术的巨大进步,今天非主流脑残们终于迎来了使用手写屏的 春天!人类识别火星文的最有效方式是联想法,这是因为人的思维是一个高度模糊逻辑系统,但是计算机系统是一个绝对理性的逻辑系统,想让计算机产生模糊逻 辑,目前只能用模糊数学方法的软件模拟来实现。由于非主流们在使用火星文时有很大的随意性,一个字经常有几种变体,并且经常出现新的变体,例如“我”字, 就有“莪”、“ωǒ”、“偶”等数种形式。人们可以根据联想法,将每一种变体的“我”与原“我”对应起来,并正确理解其词意。但是计算机不具备联想能力, 即使图像处理算法做到了精度很高,也只能将这些变体与正常字库的字形对应起来,并得到其文字编码。例如“我”“莪”“ωǒ”、“偶”字的UTF8编码分别 是0XCED2、0XDDAD、0XA8AF、0XC5BC,计算机只能通过编码识别这是什么字,但是如果在模板匹配中将“莪”的0XDDAD编码与“我 ”的0XCED2对应,那么当用户要输入“莪”的原意时就会发生逻辑错误。
3字/词库匹配转换法用于手写火星文的识别
在经过对火星文字形的大量调查后,本文提出了一种基于字/词库的匹配转换法。该算法的计算过程如下,先利用传统的文字识别技术获得火星文的文字编码。传统 的文字识别算法分为脱机识别和联机识别两种情况,脱机识别采用二维真实隐马尔科夫模型是一种比较成熟的算法,也可以再建立大量样本的基础上使用神经网络识 别手写字形。联机识别可以采用轨迹跟踪法,笔画特征逼近-合并算法等成熟方法。总之第一步是实现获得输入的火星文的文字编码。
第二步,将该编码映射到正确含义的字库编码。这一步是本文的技术难点。本文提出的解决方法是,将常用的火星文与其原意文做一个多对多得映射字库,即一个火 星文字可能表示的是几个不同的原意文,一个原意文也会有若干个火星文变体,这样形成的统一的字库映射网络(WMN-word mapped net),网络中的每一个节点就是火星文或者原意文,并用一个标志NC来表示该节点是火星文还是愿意文。在WPN的基础上,再建立一个词库映射网络 (PMN-phase mapped net),即PMN中的每个节点都是火星文的词和原意文的词,并产生多对多的连接关系,同时WPN的节点到PMN的节点有一对多的虚映射,该含义是每个字 可以产生若干个词组。在建立WMN和PMN 后,由于词的多对多映射数量远比字的多对多映射数量少,因此采用词库优先的算法,即将句子分解成词或词组,在PMN中查找其映射的原意的词或词组,对于不 能转换的词组,则使用字库映射。字库映射后再分别查找火星文字和原意文字到PMN得虚映射,检查是否存在包含在句子中的词。
经过这两步,可以将火星文的句子转换为正常的句子。该算法的优点是实现简单,适合小规模的个人使用环境。缺点是当字/词网络很大时,时间复杂度增加,转换慢。当有新的火星文变体字产生时,就要不断扩充字库,否则不适应于新的环境。
4模糊智能模式推理法
该方法是对字/词库匹配转换法的该进,增加了模糊逻辑推理和神经网络学习。该方法的字库不需要扩充,字库中储存基本的字形。第一步,利用图像分割的方法, 将输入文字的图像做偏旁部首的分解,改变字库中的NC属性,即NC表示该字是火星文,原意文,或者没有意义的部首,以此建立部首字库。如“莪”的识别中, 通过偏旁部首分割,得到“艹”和“我”,“艹”在字库中的NC属性表明这是一个无意义的部首,而有意义的是“我”的部分。该算法流程是,
(1)设某字分解的偏旁为P,部首为B,在WMN中查找P节点,忽略B节点
(2)由虚映射查找P对应的PMN中的词组
(3)将整句上下文的所有字的词组找到后,查找词组中的重叠部分,作为映射结果。
例如“莪們蔸湜婔炷瑬”这句话中,“莪”字的词组映射结果可能有“莪們”和“莪蒿”两种,“莪”本意就是“莪蒿”,再查找句子中的下一个火星文字的词映 射,比如“們”,查找结果是“莪們”,“仌們”,这时通过比较重叠词发现“莪們”这个词是重叠的,因此作为查找结果,再在PMN中查找“莪們”对应的原意 词,找到“我们”完成转换。如果分解的P、B的NC属性都是偏旁,则分别计算其对应的词组在进行重叠比较。
(4)当上述方法找不到词重叠时,就要使用按发音转换。一个相似的发音可能是很多种同音字的含义,不得不佩服非主流的脑残程度啊,比如“蓪鼡汽車姠羙國琺 阮妽啨岥浐”,在这句话中的“琺阮”是“法院”,在识别“阮”时,“元”对应的词组中没有“法院”,只能从同音字中转换,“元”对应的同音字有“院”,“ 远”,“原”等字,如果将所有这些同音字的对应词组找出来,再做词组重叠的查找,最终也会找到,但是这样多了很多冗余计算过程。为了提高识别率,加快识别 速度,采用模糊推理的方法。以下推理假设所有的词组由两个字构成。
设一句火星文的字构成为“ABCDEFG”,句中任意字为Wi,算法如下:
计算Wi的词组映射Pi=XY,其中Wi=X或Wi=Y。当Wi=X时,计算Y的同音字得到Yj,再计算Wi+1的偏旁与Yj的隶属度,选择隶属度最大的 Yimax值作为结果。当Wi=Y时,计算X的同音字Xi,计算Wi-1的偏旁与Xi的隶属度,选择隶属度最大的值Ximax作为结果。
(5)隶属度的确定。模糊推理中选择模糊变量结果的决定因子是隶属度,本方法中隶属度的确定是一个概率统计结果。通过对火星文变体字的研究发现,BDS患 者最喜欢使用的是使用概率大的同音字,其次是笔画少的同音字,再次是繁体同音字,因此隶属度的确定可以按上述计算的比例确定。
该算法的可行性需要进一步的仿真验证和程序设计实现。
5结语
本文针对当前社会的毒瘤——非主流现象,提出了手写火星文识别算法,曾加了BDS患者使用手写屏的机会,对于帮助BDS患者回归正常人类社会,净化社会空 气,树时代文明新风起到积极地作用,并对泇赽洧狆國特脃啲涻浍炷乂現玳沎楗蔎起到了重要的作用。同时增加了手写触摸屏产品在非主流人士中的推广,为经济危 机下的GDP拉动带来利好消息。
(完)
附:标准火星文太祖诗两首
_/~↘諆壹
淥汆圊屲忹洎哆 澕佗嘸柰尒痋哬
芉籿薜荔亽遗矢 萭戶簫疏瘣晿戨
侳逇ㄖ珩汃芉里 廵兲愮看壹芉菏
吽蓈慾問瘟鉮亊 ①樣蕜歓豩迣箥
淇弐
舂風婸栁萭芉條 陸億鉮詶盡橓尧
葒雨隨杺飜莋哴 圊冚着澺沎潙喬
兲嗹伍昤檭鋤落 哋動彡菏鐵譬滛
徣問瘟鉮慾哬暀 衹船眀烛燳兲燒
つ/'°